Los datos se han convertido en el principal combustible de las empresas. Innovación, transformación, diferenciación, descarbonización, excelencia operativa, rentabilidad: ahora todo se basa en los datos y, por tanto, en quienes son capaces de hacerlos hablar, los científicos de datos. La demanda de estos perfiles, que ya escasean, seguirá creciendo y se intensificará la competencia entre startups, gigantes tecnológicos y grandes corporaciones para atraerlos.
Además, los científicos de datos son como ovejas de cinco patas, o más bien ovejas de tres patas, expertos en modelado matemático, TI y las actividades en las que trabajan. Por lo tanto, será difícil capacitar a un gran número de ellos, especialmente cuando también se necesitan desarrolladores, arquitectos y especialistas en ciberseguridad.
Para profundizar en la explotación de datos será necesario, por un lado, ampliar los equipos haciendo más accesible la ciencia de datos. Por otro lado, necesitaremos maximizar la productividad de los pocos y costosos especialistas disponibles. AutoML es una respuesta a este doble desafío.
¿Qué es AutoML?
AutoML tiene como objetivo automatizar las tareas tediosas, repetitivas y que requieren mucho tiempo para desarrollar modelos de Machine Learning (ML). Este trabajo, que ahora es realizado por científicos de datos, consta de cinco pasos sucesivos que constituyen la canalización de ML:
- Recopilar los datos previamente identificados como relevantes para el problema en cuestión.
- Preparar estos datos depurándolos de valores atípicos, corrigiendo errores y lagunas, y posiblemente enriqueciéndolos con conocimiento empresarial para mejorar el rendimiento y la solidez del modelo.
- Definir las características (feature ingenieria), es decir, extraer o construir a partir de los datos los parámetros que debe considerar el algoritmo.
- Desarrollar y entrenar el modelo en base a un algoritmo elegido por su adecuación al tipo de datos y la naturaleza del problema.
- Probar, optimizar y validar el modelo, que debe producir resultados exactos y precisos. También debe proporcionar garantías suficientes en términos de explicabilidad, fiabilidad, robustez, equidad, usabilidad, etc.
Solo después de estos cinco pasos, el modelo se puede implementar y poner a disposición de los usuarios. Posteriormente, será necesario mantenerlo para tener en cuenta la evolución de los datos, la calidad de los resultados y las expectativas del negocio.
¿Cómo funciona AutoML?
Para automatizar la canalización de ML, AutoML se basa en métodos de aprendizaje por refuerzo. Se crean múltiples canalizaciones para probar varias combinaciones de algoritmos y características en paralelo. En cada iteración, los diferentes modelos reciben una puntuación de aprendizaje hasta que emerge el que más se acerca al resultado esperado. El proceso se detiene después de un tiempo predefinido o cuando se cumplen ciertos criterios de relevancia.
¿Cuáles son los beneficios de AutoML?
El primer beneficio de AutoML, el objetivo más obvio, es el ahorro de tiempo (y, por lo tanto, de dinero). La búsqueda automática del mejor modelo ahorra a los científicos de datos laboriosos ensayos y errores y les permite obtener un resultado de calidad aceptable mucho más rápido de lo que lo harían de otra manera. Pueden dedicar el tiempo libre a desarrollar más modelos o ajustar aquellos que tienen el mayor impacto comercial. En términos de rendimiento, también notamos que los algoritmos de AutoML tienden a ser más eficientes que los modelos codificados a mano.
La realización automática de los pasos de canalización de ML también hace que este trabajo de modelado sea accesible para una audiencia de especialistas comerciales que pueden no tener todas las habilidades técnicas necesarias. Por lo tanto, AutoML puede acelerar y expandir la adopción de Machine Learning con un esfuerzo limitado.
Finalmente, el uso de un único método de modelado automatizado hace que los modelos sean más consistentes y confiables, ya que ya no dependen de las prácticas o sesgos de los científicos de datos individuales. Este es otro elemento importante en la perspectiva de generalizar el aprendizaje automático a escala.
¿Para qué casos de uso es adecuado AutoML?
AutoML permite industrializar el uso de Machine Learning para casos de uso clásicos como clasificación, regresión, predicción y reconocimiento de imágenes. En concreto, se puede utilizar para anticipar comportamientos (probabilidad de que un cliente abandone la empresa, abandone una compra, cancele una reserva, etc.), segmentar poblaciones, detectar fraudes, predecir la inminencia de un evento (mantenimiento predictivo, etc.). .) o establecer previsiones de ventas.
Para obtener más información sobre los posibles usos de AutoML, consulte nuestro artículo: “ ¿Qué es AutoML? “.
¿Cuáles son las limitaciones de AutoML?
AutoML facilita mucho el trabajo de los científicos de datos, pero no puede sustituir totalmente su experiencia en la elección de parámetros que les permitan avanzar en la optimización del modelo. Además, crea un efecto de “caja negra” ya que no necesariamente tenemos todos los elementos que nos permiten interpretar los resultados del modelo y cómo se obtuvieron. Esto puede ser un obstáculo en ciertos contextos donde esta explicabilidad es importante, incluso requerida.
La evaluación de modelos es particularmente problemática en el caso del aprendizaje no supervisado. Finalmente, hay que tener en cuenta que Machine Learning no es una panacea. Es solo un enfoque de la inteligencia artificial entre otros. Los científicos de datos tienen que determinar si es el más adecuado a la naturaleza del problema, a los datos disponibles y al nivel de precisión esperado, y siempre estará en ellos aportar su garantía humana a los resultados obtenidos.
¿AutoML puede reemplazar a los científicos de datos?
Por supuesto, AutoML puede crear cualquier modelo de Machine Learning a pedido, pero estos modelos no siempre son perfectos. Por lo tanto, los especialistas deben intervenir para verificar que el modelo corresponde al problema. Antes del proceso, la identificación de valores atípicos durante la limpieza de datos también requiere un excelente conocimiento del negocio. Y AutoML, como ya hemos comentado, no está adaptado a todo tipo de problemas.
Por todas estas razones, AutoML parece ser una herramienta formidable para la creación rápida de prototipos de nuevos modelos y la industrialización de los casos de uso más conocidos que se pueden confiar a nuevos tipos de usuarios, pero probablemente no reemplazará a los científicos de datos. Los científicos de datos aún tienen un largo camino por recorrer porque su experiencia en los aspectos empresariales, de datos o algorítmicos más avanzados es insustituible. Por otro lado, gracias a AutoML, pueden volverse aún más eficientes en su trabajo.
¿Cómo puedo aprender más?
Este artículo es parte de una serie más amplia centrada en las tecnologías y los temas que se encuentran en la primera edición de Devoteam TechRadar. Para leer más sobre estos temas, descargue TechRadar .