Saltar contenido

Chapter 7

Algoritmo No. 6 – ¿Y si usamos LASSO? Entender las técnicas de regularización lineal

Antes de leer este capítulo, le recomendamos que vuelva a leer detenidamente la sección sobre el Algoritmo No. 4 y la regresión lineal. Hemos visto que los modelos de regresión lineal se basan en la minimización del
error residual para la estimación de coeficientes.

Pero también se ha precisado que la función de costos podría generar una fuerte inestabilidad en los resultados de la estimación.

Pero, ¿qué significa eso exactamente? Significa que algunos pequeños cambios en los datos pueden producir patrones muy diferentes.

Por ejemplo, ha obtenido un modelo de regresión lineal de una base de datos. Luego, luego de algunas correcciones a su base de datos, el 2% de sus datos cambia radicalmente. Vuelve a calcular su modelo de regresión, aunque está seguro de que no habrá cambios en su modelo.

¡Y qué sorpresa! Tu modelo (es decir, el valor de los coeficientes de cada variable explicativa) ha sido totalmente transformado.

Afortunadamente, existen técnicas para estabilizar los modelos de regresión lineal y así evitar sorpresas desagradables como esta. Vamos a ver tres técnicas de regularización: Ridge, LASSO y Elastic Net.

Recuerde: el mejor modelo de regresión lineal se puede construir siguiendo tres pasos clave.

  1. El primer paso es crear una función de costo. Esta es una función matemática que mide los errores que cometemos al aproximar datos. Esto también se conoce como error inducido por el modelo.
  2. Luego viene el paso de minimización de esta función de costo: debemos encontrar los mejores parámetros posibles para nuestro modelo para minimizar el error de modelado.
  3. Entonces se debe seleccionar un método para resolver el problema. Existen dos métodos:
    • un método de resolución numérica, descenso de gradiente
    • un método analítico, el método de “mínimos cuadrados”

Principio de funcionamiento de los métodos de regularización

Las técnicas de regularización se utilizan en el contexto de la regresión lineal y para limitar los problemas causados ​​por la inestabilidad de las predicciones. Estos métodos permiten distorsionar el espacio de soluciones, para evitar la aparición de valores demasiado altos. Usamos la palabra “contracción” para evocar esta
transformación espacial del espacio de búsqueda de soluciones.

Se trata de modificar ligeramente la función de coste del problema de regresión lineal complementándola con un término de penalización.

Si los tres pasos clave para construir un modelo de regresión permanecen sin cambios, todavía es necesario adaptar un poco la función de costo.

La función de coste con penalización se escribe de la siguiente manera:

Se dan los valores de X e Y. En términos de su construcción, la función de costo C es una función de los parámetros de la función de hipótesis (h).

Y los parámetros de C definen una línea afín.

Esta es la función (función Penalty) que gestiona la penalización según un parámetro lambda que se configura empíricamente para obtener los mejores resultados.

Le sugerimos que eche un vistazo detallado a tres métodos basados ​​en este principio.

Primer método de regularización: regresión Ridge penalizada

La regresión de cresta es uno de los métodos de penalización más intuitivos. Se utiliza para limitar la inestabilidad de las predicciones vinculadas a variables explicativas demasiado correlacionadas.

Esta función de penalización se basa en la denominada norma L2 que corresponde a la Distancia Euclidiana. La regresión de Ridge es, por lo tanto, el equivalente de minimizar la siguiente función de costo:

La penalización de Ridge disminuirá la distancia entre las posibles soluciones, con base en la Medida Euclidiana.

Configuración del parámetro lambda:

  • Cuando lambda está cerca de cero, se utiliza la solución clásica, sin penalizaciones.
  • Cuando lambda es infinita, la penalización es tal que todos los parámetros se establecen en cero.
  • Cuando se aumenta lambda, aumenta el sesgo de la solución, pero se reduce la varianza (cf. la definición de compensación entre sesgo y varianza).

Al igual que con la regresión lineal clásica, la regresión de Ridge se puede resolver mediante el descenso del gradiente y mediante la iteración hasta la convergencia de la función de costo C.

Por lo tanto, la regresión de Ridge permite eludir problemas de colinealidad (donde las variables explicativas están fuertemente correlacionadas) en un contexto donde el número de variables explicativas en la entrada del problema es alto.

La principal debilidad de este método se relaciona con las dificultades de interpretación porque sin selección, todas las variables se utilizan en el modelo.

Método de penalización LASSO

Es posible que conozca el término “lazo” de las historias sobre el Salvaje Oeste. Sin embargo, en este contexto, significa “Operador de selección y contracción mínima absoluta”. El acrónimo LASSO contiene términos relacionados con la noción de reducción del espacio de búsqueda y otros términos relacionados con una operación de selección variable (“operador de selección”).

El método LASSO introduce el siguiente término de penalización en la formulación de la función de costo:

Esta vez, se utiliza otra norma. La norma L1 corresponde a la norma de Manhattan (distancia correspondiente a un movimiento en ángulo recto en un tablero de ajedrez, a diferencia de una Distancia Euclidiana, que corresponde a un movimiento en línea recta).

Figura 1: Distancia entre dos puntos: distancia euclidiana frente a geometría de taxi (muchas rutas entre A y B)

Es una distancia mucho menos intuitiva que la Distancia Euclidiana, que permite una penalización y disminuye la distancia entre las posibles soluciones en base a la norma L1.

La función de costo a minimizar por LASSO se escribe de la siguiente manera:

Tenga en cuenta que no existe una solución analítica para LASSO, por lo que podemos usar un algoritmo iterativo o el método de descenso de gradiente para resolver esta ecuación.

LASSO tiene algunas buenas cualidades: es una forma de penalización que permite establecer en cero ciertos coeficientes de variables explicativas (a diferencia de la regresión de Ridge, que puede conducir a coeficientes cercanos a 0, pero nunca exactamente cero).

LASSO es por tanto un algoritmo que también permite la simplificación del modelo, mediante la eliminación de variables.

Ahora ilustraremos geométricamente los efectos de una regularización Ridge Vs LASSO en los parámetros del modelo con los dos gráficos a continuación.

Figura 2: Comparación geométrica entre la regularización de Ridge y LASSO en los parámetros del modelo

La línea negra representa la función de regularización, mientras que la línea azul punteada representa una línea no regulada. Se puede ver que la regresión de Ridge escala los coeficientes dividiéndolos por un factor constante, mientras que LASSO resta un factor constante al truncar a 0 por debajo de cierto valor.

Red Elástica = Caballete + LASSO


En la práctica, la regresión Ridge da mejores resultados que la regresión LASSO penalizada, especialmente si las variables explicativas del problema a resolver están altamente correlacionadas (este es el caso de uso clásico de este método de penalización).

Pero la regresión de Ridge no reduce el número de variables. Para encontrar un compromiso entre las dos técnicas de penalización, la regularización de Elastic Net combina los dos enfoques.

La función de costo se determina:

Donde el parámetro alfa es un parámetro que define el equilibrio entre Ridge y LASSO.

  • Para alfa = 1, la función de costo coincide con la de LASSO.
  • Para alfa = 0, se encuentra la regresión de Ridge.

Es posible ajustar la sanción dependiendo del caso de aplicación.

  • Cuando alfa se acerca a 1, podemos tener un comportamiento cercano al LASSO mientras eliminamos los problemas relacionados con las fuertes correlaciones entre las variables explicativas.
  • Cuando alfa aumenta de 0 a 1 (para una lambda dada), el número de variables eliminadas del modelo (que lleva a un coeficiente cero) aumenta hasta que se obtiene un modelo más pequeño, obtenido por LASSO.

Resumir…

En conclusión, la regularización permite reducir el espacio formado por las soluciones del problema de modelado por regresión lineal. Para ello, añadimos un término que penalizará los coeficientes a la función de coste. Por lo tanto, minimizar la función de costo minimizará los coeficientes de regresión.

En este capítulo se han presentado 3 tipos de regularización: los métodos Ridge, LASSO y Elastic Net.

A veces, la regresión LASSO puede provocar un sesgo en el modelo, lo que significa que la predicción depende demasiado de una variable en particular. En estos casos, Elastic Net combina mejor la regularización LASSO y Ridge, pero no elimina fácilmente el alto coeficiente de colinealidad.