Mucha gente piensa que la regresión lineal es sencilla y que es simplemente una cuestión de encontrar una línea recta a través de un diagrama de dispersión. ¡Están equivocados! Incluso podemos decir que la regresión lineal es un modelo engañosamente simple. Averigüemos por qué juntos.
Modelar bien significa modelar un fenómeno basado en la ley más simple posible y más fácil de interpretar. Teniendo esto en cuenta, vamos a presentar los pasos teóricos con los que analizar la implementación de un modelo lineal para el cálculo de la vida útil de un componente mecánico, con el fin de optimizar el mantenimiento preventivo de nuestro cliente.
Hemos decidido mantener un enfoque estadístico, ¡pero no hay que temer las fórmulas matemáticas! Este folleto está destinado al público en general y esperamos que sea una buena forma de comprender en detalle algunos aspectos fundamentales del aprendizaje automático.
El mejor modelo de regresión lineal se puede construir siguiendo tres pasos clave:
- Comience por definir una función de costo. Esta es una función matemática que mide los errores que cometemos al aproximar datos. También se conoce como error inducido por el modelo.
- Para minimizar esta función de costo, debemos encontrar los parámetros correctos de nuestro modelo para minimizar el error de modelado.
- Seleccione un método para resolver el problema. Hay dos métodos:
• un método de resolución digital, descenso de gradiente;
• un método analítico, el método de los “mínimos cuadrados”.
Paso 1: Elaboración de la función de costo.
Para crear una función de costo, debemos comenzar definiendo una función de suposición.
Esta hipótesis se puede resumir de la siguiente manera: el modelo depende de un conjunto de n variables de entrada, denominadas x1, x2, … xn. (Estas variables de entrada corresponden a los datos conocidos. Por ejemplo, el número de habitantes de una zona geográfica, el salario de un empleado, o cualquier otra variable conocida).
Estas variables de entrada influirán en una variable objetivo desconocida (Y), que estamos tratando de predecir.
Desde una perspectiva matemática, buscamos determinar la mejor función de hipótesis que permita encontrar una relación lineal aproximada entre las variables de entrada y la variable objetivo (Y).
Hipótesis función h

Para simplificar el enfoque, tomamos el caso más simple de regresión lineal univariante. En este caso, la regresión lineal se aplica a una sola variable de entrada y la función de hipótesis (h) se escribe: h(X) = ax + b.
Nuestro desafío es entonces encontrar la mejor aproximación, es decir, el mejor par (a, b) para que h esté lo más cerca posible de todos los puntos de nuestros datos. En otras palabras, determinaremos a partir de los datos la mejor relación lineal entre el valor de entrada (X) y el valor de la variable objetivo (Y), entrenando la función de hipótesis (h).
Esta función de hipótesis es, por tanto, una función que demuestra el error entre la predicción del modelo y los datos reales.
La función de hipótesis asigna a cada punto X un valor definido por h(xi), que es más o menos el mismo que la variable objetivo (yi). Por lo tanto, podemos determinar el margen de error para xi de la siguiente manera: h(xi) – yi. Cada margen de error puede ser positivo o negativo. En consecuencia, la suma de los márgenes de error puede compensarse entre sí. Por lo tanto, es necesario garantizar que la contribución de cada error se sancione sistemáticamente. Luego, el margen de error se eleva al cuadrado (ver la figura a continuación).
Principio del algoritmo


Encontramos la suma de todos los errores unitarios para todos los puntos de datos, para determinar un error cuadrático (error cuadrático):

Luego, la función de costo se determina ponderando la suma de los errores al cuadrado por el número de puntos p en la base de aprendizaje:

En nuestro caso de regresión lineal univariante, la función de costo se determina de la siguiente manera:

Se dan los valores de X e Y. En términos de su construcción, la función de costo C es una función de los parámetros de la función de hipótesis (h). Y, como se muestra en la figura anterior, los parámetros de C definen una línea afín con:
- b, la ordenada en el origen de la función h;
- a, el coeficiente principal (o pendiente) de la línea recta h.
Nota: el mismo principio se aplica a la regresión lineal múltiple (es decir, regresión lineal con n variables de entrada).
Paso 2: Minimización de la función de costo.
Determinar los mejores parámetros (a, b) para la función de hipótesis (h) se reduce a encontrar la mejor línea recta, la que minimiza la suma de todos los errores unitarios.
Desde una perspectiva matemática, se trata de encontrar el mínimo de la función de costo.
Elevar al cuadrado la suma de los errores unitarios hace dos cosas:
- Por un lado, asegura que la función de coste sea debidamente penalizada por cada unidad de error. De hecho, todos los errores son positivos.
- Por otro lado, garantiza que la función de coste sea convexa (si la función de coste admite un mínimo, este mínimo es el mínimo global de la función). Esbozaremos la noción de convexidad (ver más abajo).
También presentaremos el método numérico de descenso de gradiente, que se utiliza para encontrar matemáticamente el mínimo de la función de costo, es decir, el mejor par (a, b).
Es un método iterativo que se puede resumir de la siguiente manera: si dejas caer una pelota desde lo alto de una colina, la pelota tomará la mejor pendiente en cada momento mientras rueda hasta la base de la colina. La convexidad de la función de costo corresponde al hecho de que estamos seguros de que la colina no es desigual, con áreas de pendiente ascendente.
La formulación matemática de este problema de descenso de gradiente se escribe de la siguiente manera:
Paso 1: Inicialización del par
Paso 2: Iteración hasta convergencia:

En cada iteración, la mejor pendiente se encuentra con nuestra función C, que recorre las iteraciones hacia el mínimo de la función de costo.
El principal problema radica en el caso de una función de costo no convexa. En efecto, en este caso, puede ser que según diferentes inicializaciones del descenso del gradiente, converjamos hacia un mínimo local para C.
La convexidad de la función de costo permite superar este problema, ya que cualquier mínimo local es el mínimo global de la función (consulte la figura a continuación para una mejor comprensión).
Caso de una función de costo no convexa

Caso de una función de costo convexa

En la fórmula de descenso de gradiente anterior, la velocidad de convergencia está determinada por el factor α frente a la derivada parcial C. Este factor se denomina tasa de aprendizaje y representa la velocidad de modificación de cada parámetro durante cada iteración.
- Cuanto mayor sea α, mayor será la modificación de los parámetros entre dos iteraciones sucesivas (por lo tanto, mayor será la probabilidad de “perder” el mínimo o de divergir).
- Por el contrario, cuanto más pequeño es α, más probable es que converjamos al mínimo (por el contrario, el proceso de convergencia lleva más tiempo).
El descenso de gradiente es el enfoque de resolución numérica para encontrar una solución al problema de modelado. Este método permite encontrar, de forma iterativa, el mejor modelo que minimice el error buscando la mejor pendiente hasta el mínimo global de la función de coste.
Este método es especialmente adecuado para grandes volúmenes de datos y permite llegar a una solución lo más rápido posible.
Hay otro enfoque: un enfoque analítico.
Este enfoque implica resolver matemáticamente la regresión lineal. Sin entrar en demasiados detalles matemáticos, el llamado método de los mínimos cuadrados proporciona una solución analítica a un problema. Si desea saber más, una forma de resolución analítica para la regresión lineal se escribe así:

Depende de usted dar más detalles sobre esto, si es necesario.
Y en la práctica…
- Uno de los puntos delicados de la implementación de un modelo de regresión lineal proviene de la inestabilidad de la predicción ante la integración de nuevas observaciones en los datos (es decir, los coeficientes de cada variable explicativa pueden cambiar drásticamente si se realizan algunas observaciones adicionales). se añaden a los datos),
- No suele ser fácil elegir las variables de entrada explicativas a tener en cuenta en el modelo. Luego se deben hacer preguntas sobre la naturaleza del proceso entre las variables. ¿Cuáles son las causas y los efectos de incluir una variable específica en el modelo? También se deben encontrar relaciones inmutables entre variables. (Estas son como las leyes de la física, que son universales y, por lo tanto, no cambian; piense en las leyes de atracción, vibración, transmutación de energía, etc.)
- Un paso adicional de normalización de las variables de entrada es vital en el caso de la regresión lineal multivariada. Esta normalización implica transformar todas las variables a la entrada del modelo para que evolucionen en la misma escala (para permitir que el algoritmo de descenso de gradiente funcione correctamente),
- El modelo lineal no es adecuado para todos los fenómenos físicos involucrados (por ejemplo: los fenómenos de calentamiento térmico generalmente se modelan mediante relaciones cuadráticas entre mediciones eléctricas y físicas). Si el fenómeno no se puede modelar mediante una relación lineal entre las variables de entrada y objetivo, entonces es necesario encontrar una función polinomial. (Pero en este caso, tenga cuidado con el sobreajuste, es decir, ¡encontrar relaciones falsas en sus datos!)
- Recuerde los puntos positivos del modelo lineal: es un enfoque interesante porque el modelo es simple de explicar a las empresas y el modelo es explicativo (los coeficientes de cada variable normalizada indican la importancia de la variable en la relación).
Resumir…
Hemos visto que la regresión lineal le permite familiarizarse con los principios fundamentales de la construcción de un
modelo de aprendizaje automático. En un capítulo posterior, veremos cómo mejorar la estabilidad de los modelos de regresión lineal penalizando LASSO, Ridge o ELASTIC NET.

Al seleccionar regresión lineal múltiple, agregar variables independientes aumenta la varianza explicada en la variable dependiente. Por lo tanto, agregar demasiadas variables independientes sin ninguna justificación teórica puede resultar en un modelo sobreajustado.