Saltar contenido

Chapter 3

Algoritmo No. 2 – Random Forest: intuitivo y fácil de entrenar

Random Forest es un algoritmo vital en el aprendizaje automático. También se conoce como “bosque de decisiones aleatorias”. Sugerido por Leo Breiman en 2001, este algoritmo se basa en la agrupación de múltiples árboles de decisión. Es bastante intuitivo y fácil de entrenar, y produce resultados generalizables. El único inconveniente es que el bosque aleatorio es una caja negra que da resultados difíciles de leer, es decir, poco explicativos.

Sin embargo, es posible limitar esto mediante el uso de otras técnicas de aprendizaje automático. Este será el enfoque del Algoritmo No. 7, LIME, un algoritmo clave para hacer un modelo explicativo.

Bosque aleatorio: principio de funcionamiento

Un bosque aleatorio se compone de un conjunto de árboles de decisión independientes.

Cada árbol tiene una visión parcial del problema debido a una doble selección aleatoria:

  • selección aleatoria con reemplazo de observaciones (filas de su base de datos). Este proceso se conoce como embolsado de árboles.
  • selección aleatoria de variables (columnas de su base de datos). Este proceso se conoce como muestreo de características.

Todos estos árboles de decisión independientes finalmente se juntan. La predicción que hace el bosque aleatorio para datos desconocidos es, por tanto, la media (o el voto, en el caso de un problema de clasificación) de todos los árboles.

La idea básica de este algoritmo es bastante intuitiva. Por ejemplo, si su banco rechaza su solicitud de crédito, lo más probable es que consulte a uno o más bancos. De hecho, una sola opinión no suele ser suficiente para tomar la mejor decisión.

El bosque aleatorio funciona con este mismo principio. En lugar de tener un estimador complejo que es capaz de hacer todo, el bosque aleatorio utiliza varios estimadores simples (de menor calidad individual). Cada estimador tiene una visión fragmentada del problema. Todos estos estimadores finalmente se juntan para obtener una visión global del problema. La combinación de todos estos estimadores hace que la predicción sea altamente eficiente.

Génesis del algoritmo

El principal defecto del árbol de decisión es que su rendimiento depende en gran medida de la muestra de datos inicial. Por ejemplo, la adición de algunos datos nuevos a la base de conocimiento puede modificar radicalmente el modelo y cambiar los resultados.

Para luchar contra este defecto, podemos usar una multitud de árboles: ¡un bosque de árboles! – de ahí el nombre “bosque aleatorio”. El término “aleatorio” proviene del proceso de doble sorteo aleatorio que se aplica a cada árbol, tanto en relación con las variables como con las observaciones.

Ilustración práctica del algoritmo, una fórmula para recordar:
bosque aleatorio = embolsado de árboles + muestreo de características.

Embolsado de árboles

“Bagging” es la abreviatura de “agregación de arranque”. Es un proceso de selección aleatoria de muestras de observación (filas de datos),
determinado por 3 pasos clave:

  1. Construcción de n árboles de decisión, seleccionando aleatoriamente n
    muestras de observación.
  2. Entrenamiento de cada árbol de decisión;
  3. Para hacer una predicción sobre nuevos datos, se debe
    usar cada uno de los n árboles, y la mayoría se determina a partir de n predicciones.

Muestreo de características

Es un proceso de selección aleatoria de variables (columnas de datos). De forma predeterminada, n variables para un problema con n variables en total se seleccionan desde la raíz del árbol de decisión.

Volviendo al ejemplo anterior de aceptación de crédito, la idea básica del muestreo de características es pedirle a cada banco que estudie su solicitud de préstamo en función del acceso limitado a la información del cliente. Un banco tomará su decisión sobre la base de solo tener, por ejemplo, acceso a información relacionada con la edad, CSP e ingresos anuales del cliente. Mientras tanto, otro banco solo tendrá acceso a la información relativa al estado civil, sexo y calificación crediticia actual del cliente.

Este proceso permite debilitar la correlación entre los árboles de decisión que podría interferir en la calidad del resultado. En estadística, decimos que el muestreo de características permite reducir la varianza del conjunto de datos creado.

Criterios de división/división

Como sabe, un árbol de decisión crea subpoblaciones separando sucesivamente las hojas de un árbol.

Existen diferentes criterios de separación para construir un árbol:

  • El criterio de Gini organiza la separación de las hojas de un árbol centrándose en la clase más representada en el conjunto de datos. Esto debe separarse lo más rápido posible.
  • El criterio de entropía se basa en la medida del trastorno prevalente (como en la termodinámica) en la población estudiada. La construcción del árbol tiene como objetivo reducir la entropía global de las hojas del árbol en cada etapa.

Resumir…

Si comprende cómo funciona el algoritmo de bosque aleatorio, está listo para descubrir el aumento de gradiente, que también es un método de conjunto.

En el próximo capítulo, descubrirá cómo funciona el aislamiento forestal. Se trata de un algoritmo moderno, y uno de los más utilizados en casos de detección de anomalías o fraudes.

El bosque aleatorio funciona mejor que el árbol de decisión. A menudo se usa en competidores de aprendizaje automático y sigue siendo un modelo difícil de interpretar.