Una de las técnicas más utilizadas dentro de la minería de datos es la regresión logística.
La regresión logística es un método que permite
encontrar relaciones y probabilidades entre datos que provienen de varios factores, considerada como una técnica de aprendizaje automático
Se ha convertido en una herramienta importante en el área del aprendizaje automatizado (machine learning) además de ser aplicada en software de tipo ETL (Extract, Transform, Load).
La imagen siguiente muestra un ejemplo de modelo de probabilidad usando la técnica de regresión logística:
Ventajas de la regresión logística
Algunas de las ventajas que presenta la regresión logística son el bajo consumo de recursos de un ordenador al hacer uso de ciertos tipos de software como Weka, su fácil interpretación, su eficiencia y su simplicidad.
Desde el punto de vista de las organizaciones, el uso de la regresión logística se puede aplicar dentro de campos como el marketing en ecommerce. Nos puede decir si un cliente le interesa un producto o no a través de una oferta.
La clasificación binaria
La regresión logística se caracteriza por ser un procedimiento cuantitativo donde se intenta predecir respuestas a preguntas tales como
- ¿se puede predecir que una empresa va a quebrar? o
- ¿admitirán a un alumno a una universidad en particular?
Por lo tanto, es un tipo de algoritmo que resuelve problemas de clasificación binaria donde la resolución de los problemas se clasifica dentro de dos posibles valores.
Un ejemplo de aplicación de la regresión logística en data mining
Podemos tomar como ejemplo el caso de
¿qué probabilidad tiene un alumno de aprobar un examen de matemáticas?
-
Definición de resultados
Los posibles resultados son dos:
- aprobar
- suspender
2. Definición de variables
Como variables para el análisis se podrían utilizar el número de horas de estudio o el número de problemas resueltos con éxito.
Cuantas más horas de estudio y más problemas resueltos con éxito, el alumno tendrá más probabilidades de aprobar, en caso contrario, tendrá más probabilidades de suspender.
La regresión logística aplica al marketing: landing pages
El caso del estudiante de matemáticas es un ejemplo sencillo para empezar a entender la regresión logística. Ahora lo llevamos al siguiente nivel de complejidad – la efectividad de una landing page.
Las landing pages o paginas de aterrizaje son las páginas por las que un cliente potencial llega a nuestro sitio web. Tienen que cumplir varias funciones. Para empezar, bien optimizadas para la palabra clave objetivo que hayamos definido para la campaña, atraeran visitas desde los resultados de Google. Seguramente, también invertiremos algo en publicidad SEM para atraer tráfico a la landing page.
Una vez conseguida la visita, dependerá del diseño y contenido de la página, que la visita no resulte en un abandono del sitio. Y por último, tiene que conseguir una interacción, ya sea un clic a otra página, el envío del formulario de contacto o una transacción. Esta es la conversión.
Por todo ello, invertimos muchos recursos en el diseño de una landing page. Y para optimizar el uso de estos recursos y saber la probabilidad de conversión, podemos aplicar la regresión logística.
En este ejemplo simplificado, nuestro objetivo o variable dependiente es la conversión que hayamos definido antes. El predictor (la variable independiente) es la Landing Page.
Otros data points que incluiriamos para unos resultados más exactos, son:
- ID del visitante
Tipo de visitante
Página de destino
Abandono del sitio
Profundidad de página
Tiempo promedio en el sitio
Vistas de página
Vistas de página únicas
Recuento de visitas
Días desde la última visita
La regresión logística es una de las técnicas más importantes ya que, a través de los modelos predictivos se puede mejorar la toma de decisiones.