El primer capítulo de este libro electrónico didáctico trata sobre uno de los algoritmos más simples: el árbol de decisión. Un árbol de decisiones le permite usar sus datos para determinar reglas comerciales claras, de acuerdo con una variable objetivo que busca explicar. Rara vez se usa inalterado en el aprendizaje automático, y es una herramienta elemental y esencial que debes dominar para comprender los algoritmos que veremos más adelante: el bosque aleatorio (Algoritmo No. 2) y el bosque de aislamiento (Algoritmo No. 3).
Principio de funcionamiento
Un árbol de decisiones hace posible que una variable objetivo se destaque de otras variables, las llamadas explicativas.
Desde una perspectiva matemática: dada una matriz (X) con m observaciones y n variables, asociada a un vector (Y) a explicar, se debe encontrar una relación entre X e Y.
Para ello, el algoritmo buscará dividir a los individuos en grupos de individuos lo más parecidos posible en cuanto a la variable a predecir.
Como resultado, el algoritmo produce un árbol que revela las relaciones jerárquicas entre las variables. Por lo tanto, es posible comprender rápidamente las reglas comerciales que explican su variable objetivo.
Construcción de reglas
El árbol de decisión es un algoritmo iterativo que, en cada iteración, separa a los individuos en k grupos (generalmente k=2 o un “árbol binario”), para explicar la variable objetivo.
La primera división (o “split”) se logra eligiendo la variable explicativa que permitirá la mejor separación de individuos. Esta división crea subpoblaciones correspondientes al primer nodo del árbol.
Luego, el proceso de división se repite varias veces para cada subpoblación (nodos previamente calculados), hasta que finaliza el proceso de división.
¿Cuáles son sus posibilidades de ser aceptado para un préstamo en el banco?
Echemos un vistazo a un caso específico para ilustrar todo lo anterior. El siguiente diagrama nos ayuda a comprender la probabilidad de ser aceptado para un préstamo bancario. Este es un ejemplo hipotético para demostrar el principio de leer un árbol de decisión. Imagine que un gerente de un gran banco quiere conocer sus propias reglas para aceptar o no un préstamo bancario en función del perfil del cliente.
Para ello, designan a un asesor, que se encarga de entrevistar a los clientes. Este asesor (que tiene algo de estadístico en el fondo) resume los resultados para el gerente proponiendo el siguiente árbol de decisiones.

Echemos un vistazo más de cerca… En las raíces del árbol, se están revisando 2.201 archivos de clientes.
De estos expedientes, se aceptarán 1427 (64,8%) y se rechazarán 774 (35,2%). La variable explicativa que mejor separa los archivos aceptados (nuestra variable objetivo) de los demás archivos es la edad del cliente. Así, entre 942 clientes con edades comprendidas entre 18 y 42 años (42,8% del total de clientes), la tasa de aceptación de crédito alcanza el 77,9% (es decir, 734 clientes); mientras que entre los 33 clientes mayores de 63 años, la tasa de aceptación de crédito es solo del 12,1%. La principal variable que separa la población de clientes entre 18 y 42 años (Nodo 1) es la renta. Como puede ver, los 459 clientes con un ingreso neto anual superior a EUR 55K tienen una tasa de aceptación de crédito del 89,5%.
Entre los clientes con edades comprendidas entre los 43 y los 62 años, la principal variable explicativa de la aceptación del crédito es el género. Así, la tasa de aceptación de un préstamo es del 62,1% para las mujeres, frente al 48,4% para los hombres del mismo grupo de edad.
Las limitaciones de The Decision Tree
Los árboles de decisión a veces pueden conducir a un sobreajuste. Esto significa que aunque el algoritmo encuentra una regla que parece perfecta
para comprender y describir los datos, esta regla no se puede generalizar. Peor aún, en algunos casos, es posible que la regla encontrada cambie drásticamente si se agregan algunas observaciones más a sus datos iniciales.
Yendo un paso más allá
Hay algunas preguntas clave que debe hacerse al crear un árbol de decisiones.
- ¿Qué variables explicativas de entrada debe elegir para crear su árbol? Deberá explicar una variable objetivo en términos de otras variables. Trate de encontrar un proceso causal en sus datos (¿existe una relación causal entre las diferentes variables en sus datos?).
- ¿Cómo se pueden procesar datos continuos (p. ej., la estatura de una persona, el precio de un inmueble, etc.) y cualitativos (p. ej., la categoría socioprofesional, etc.)? Debe preprocesar las variables y seleccionar el modelo de árbol de decisión que mejor funcione.
- ¿Cómo se puede definir el tamaño óptimo de un árbol? Hay que pensar en podar el árbol (cortarlo a cierta altura). De hecho, un árbol demasiado profundo (es decir, con muchos nodos) siempre es sinónimo de sobreajuste.
Para continuar respondiendo estas preguntas, obtenga más información sobre los tres algoritmos de la familia del árbol de decisión: CHAID, CART y C4.5.
Resumir…
Si comprende completamente cómo funciona este primer algoritmo, comprenderá fácilmente los métodos establecidos que ponen en competencia a varios árboles, en particular, el bosque aleatorio (Algoritmo No. 2) y el bosque de aislamiento (Algoritmo No. 3).

El árbol de decisión es fácil de entender. Sin embargo, con otros algoritmos, se necesita un compromiso entre la interpretabilidad y el rendimiento.