Los árboles de decisión son un tipo de algoritmo que clasifica la información de forma que, como resultado, se genere un modelo en forma de árbol. Se trata de un modelo esquematizado de la información que representa las diferentes alternativas junto con los posibles resultados para cada alternativa elegida. Los árboles de decisión son un tipo de modelo muy utilizado debido a que facilita mucho la comprensión de las diferentes opciones.
Componentes
El árbol se compone de nodos y ramas. A su vez, existen distintos tipos de nodos y ramas en función de lo que se quiera representar. Los nodos de decisión representan una decisión que se tomará, los nodos de probabilidad representan los posibles resultados inciertos y los nodos terminales son aquellos nodos que representan el resultado definitivo.
Por otro lado, las ramas se diferencian en ramificaciones alternativas, donde cada rama lleva a un tipo de resultado y, las ramas “rechazadas” , que representan los resultados que se rechazan. El modelo se caracteriza porque un mismo problema puede ser representado con diferentes árboles.
Usos y aplicaciones de los árboles de decisiones
En minería de datos, un árbol de decisión sirve para abordar problemas tales como la clasificación, la predicción y la segmentación de datos con la finalidad de obtener información que pueda ser analizada para tomar decisiones futuras.
Si trasladamos el concepto al área de Business Analytics, los árboles de decisión se utilizan mayoritariamente para predecir las probabilidades de alcanzar un resultado en función de unas variables de entrada tales como edad, sexo, demografía o ingresos que indicarán, por ejemplo, si el cliente es apto o no para recibir un préstamo.
Para dibujar el árbol, puedes utilizar una herramienta como Lucidchart.
Pasos para diseñar el diagrama del árbol de decisiones
A la hora de diseñar el árbol, se deben seguir una serie de pasos:
- Definición del problema
- Dibujo del árbol
- Asignación de las probabilidades a los eventos
- Estimación de los resultados para las combinaciones de las diferentes alternativas posibles
- Elección de la solución más óptima reflejada en forma de ruta
Un ejemplo de aplicación en business analytics
Por ejemplo, se plantea el siguiente problema
¿debemos ofrecer a un cliente determinado un producto concreto?
Definición del tipo de cliente
Primero, se debe definir el tipo de cliente, en este caso, si el cliente es VIP o no y, en función de la respuesta, habrá una serie de posibilidades.
Caso 1
En el caso de que el cliente sea VIP, se debe tener en cuenta de cuánto gasta dicho cliente. En el caso de que el gasto sea mayor de 1000 sí se debe ofertar el producto, en caso contrario no.
Caso 2
En el caso de que el cliente no sea VIP, para poder ofrecer el producto habrá que considerar más posibilidades como si paga o no a tiempo o si sus ingresos son superiores a una cantidad determinada.
Así se construye el árbol de decisiones:
Criterios en la toma de decisiones bajo incertidumbre
El árbol plantea una posible solución para el problema, sin embargo, no es la única posibilidad ya que, en este caso, se han utilizado variables relacionadas con costos.
En ciertas ocasiones, no es posible asignar probabilidades a los posibles eventos que tenga el problema ya que los datos o son mínimos o las fuentes de donde provienen los son fiables. En estas situaciones, se deben tomar decisiones bajo incertidumbre donde no se conoce la probabilidad que puede haber para cada evento. Por lo tanto, estimar el riesgo se presenta como una tarea complicada.
En estos casos, existen varios tipos de criterios a la hora de la toma de decisiones bajo incertidumbre:
- Criterio MAXIMAX o criterio optimista : se opta por la estrategia que maximice el mejor de los resultados posibles.
- Criterio MAXIMIN o criterio pesimista : se opta por la estrategia que maximice el peor de los resultados posibles.
- Criterio de frustración mínima : se opta por ordenar las estrategias y diferenciar entre el resultado obtenido y el mayor posible para cada situación, eligiendo la estrategia que minimice el resultado.
Finalmente, debemos considerar que la peor opción que se toma es no tomar una decisión.
Otras técnicas de Data Mining:
- Regresión logística
- Clustering
- Series temporales
- Redes neuronales