Dataiku DSS (Data Science Studio) es una plataforma colaborativa de software de ciencia de datos para profesionales de datos: científicos de datos, ingenieros de datos, analistas de datos, arquitectos de datos, CRM y equipos de marketing. Es un entorno de trabajo centralizado que facilita la manipulación de datos, la exploración rápida y el intercambio de análisis, la realización de predicciones y la creación de modelos de inteligencia artificial (IA) con unos pocos clics.
La plataforma también está diseñada para simplificar la automatización y la industrialización de las cadenas de procesamiento, es decir, la recopilación de datos, la preparación de datos, la capacitación, las pruebas y el seguimiento de los modelos de IA y la fase de implementación de la producción.
La plataforma se utiliza para una amplia gama de aplicaciones, como segmentación de clientes, detección de fraudes, puntuación de clientes (cálculo de deserción, puntuaciones de apetito, puntuaciones de riesgo, etc.), aprendizaje profundo y análisis de procesamiento de lenguaje natural (NLP).
¿Cuál es la historia de Dataiku?
Dataiku DSS es el nombre homónimo de la plataforma de IA desarrollada por Dataiku, una startup fundada en 2013, ahora con sede en EE. UU. Fundada en París por Florian Douetteau (director general actual), Clément Stenac, Thomas Cabrol y Marc Batty, la empresa ha crecido rápidamente desde su creación. En 2015, Dataiku se estableció en Nueva York.
Después de recaudar 101 millones de dólares en 2018, Dataiku recaudó otros 400 millones de dólares en 2021 para una valoración total de aproximadamente 4600 millones de dólares. La startup se convirtió entonces en un unicornio y ahora cuenta con más de 1.000 empleados y más de 300 clientes entre los grupos más grandes del mundo. Entre ellos se encuentran las empresas francesas Accor, BNP Paribas, Engie, el grupo LVMH, pero también Morgan Stanley, UBS y Walmart. Los inversores de la empresa incluyen CapitalG (Google), Snowflake Ventures, Battery Ventures, etc.
La plataforma cuenta actualmente con más de 45.000 usuarios activos y más de 450 clientes en todo el mundo.
¿Cuáles son las principales características de la plataforma Dataiku?
Dataiku DSS tiene más de 90 características que se pueden clasificar según los siguientes temas principales:
Integración y conectividad de Dataiku DSS dentro de otras infraestructuras
La plataforma se integra con Hadoop, Spark, SQL, Teradata y está disponible en los mercados de plataformas de AWS, Azure y Google Cloud.
La detección de esquemas y formatos de datos es automática. Así, Dataiku es capaz de reconocer de forma nativa una variable numérica, una cadena de caracteres, una edad, una fecha o incluso una ubicación geográfica.
Además, existe una descorrelación entre el almacenamiento y el procesamiento de datos: los datos se quedan donde están. Por lo tanto, el acceso a los datos es instantáneo y sin necesidad de transferir datos para su procesamiento.
Complementos
Dataiku DSS viene con componentes visuales estándar para conectarse a datos, procesar y entrenar modelos. Pero Dataiku también ofrece la flexibilidad de implementar componentes personalizados, empaquetarlos y compartirlos con otros. Estos componentes personalizados están disponibles como complementos. Cada complemento consta de una interfaz gráfica de usuario y un backend programado por el desarrollador en R o Python.
Hay una galería de más de 100 complementos en la tienda de complementos de Dataiku, que proporciona aplicaciones de datos en muchas áreas, como traducción de idiomas, clima, sistemas de recomendación, importación/exportación de datos e interfaces gráficas listas para usar.
Preparación de datos optimizada
La interfaz gráfica de Dataiku DSS acelera la disputa de datos con la limpieza y el enriquecimiento de datos interactivos. Dataiku sugiere automáticamente transformaciones contextuales según el tipo de datos. Por ejemplo, a partir de una fecha, Dataiku propone calcular una edad. De una dirección, Dataiku es capaz de extraer el número y el nombre de la calle, el código postal o la ciudad. Hay más de 80 procesadores visuales que se pueden activar con unos pocos clics y sin código. Esta consola gráfica también permite, con simples clics, interactuar con los datos para filtraciones, transformaciones o resúmenes estadísticos.
desarrollo integrado
Muchos lenguajes son compatibles con Dataiku DSS: Python, R, Scala, PySpark, SparkR y SparkSQL, SQL, Hive, Pig e Impala. Por lo tanto, Dataiku está dirigido a todo tipo de usuarios, independientemente de su formación técnica y en todos los niveles de experiencia.
Aprendizaje automático e IA
La plataforma incluye una interfaz gráfica completa (llamada Datalab) dedicada al desarrollo de modelos de aprendizaje automático. Esta interfaz permite la configuración de modelos, la visualización del rendimiento del modelo y una lectura simplificada de los resultados producidos por los algoritmos.
También hay un módulo para la automatización del aprendizaje automático ( AutoML ). Para información, existen otros complementos de IA para el aprendizaje profundo o el procesamiento del lenguaje natural.
Para obtener más información sobre AutoML, consulte este artículo: ¿Qué es AutoML?
Colaboración y Gobernanza
Dataiku DSS incorpora funciones para optimizar el uso compartido y el intercambio dentro de los equipos de datos y los equipos comerciales. Estos incluyen gestión de proyectos, chat, wiki y herramientas de control de versiones.
Para el gobierno de datos, la plataforma proporciona un catálogo centralizado de datos, comentarios, elementos y modelos. Además, todas las actividades de los usuarios se muestran en un panel dedicado y la seguridad está garantizada por otras funciones (como, por ejemplo, la gestión de permisos, la gestión de registros o la supervisión del tamaño de los datos y la actividad de las instancias). Dataiku cumple con todos los requisitos de auditoría y gobernanza de datos.
MLOps
Dataiku DSS gestiona el despliegue de modelos: tanto dentro de su ecosistema como dentro de otros entornos como AWS , Azure, Google Cloud o incluso Kubernetes .
Análisis de datos y visualización de datos
El Datalab proporciona una interfaz para la construcción de cuadros de mando, mediante simples acciones de arrastrar y soltar. Por lo tanto, la visualización de datos se puede hacer sin código. Si es programador, por supuesto puede crear gráficos personalizados o aplicaciones web más elaboradas porque Dataiku permite integrar bibliotecas web como Javascript, d3.js, Leaflet o plotly en su ecosistema.
Flujo de datos y recomputación inteligente
Flujo de datos es el término utilizado para describir todos los datos y recetas visuales. Un flujo de datos se puede visualizar y volver a ejecutar fácilmente. Dataiku DSS también permite el recálculo inteligente de datos a través de un motor de reconstrucción que permite que los cálculos se limiten a los conjuntos de datos necesarios.
La recomputación inteligente es un primer paso en la automatización del flujo de datos y en la orquestación de escenarios de automatización de tareas.
La orquestación general del flujo de datos se puede proporcionar:
- Ya sea por Dataiku dentro de su interfaz o mediante el uso de API (esta es la API de escenario Python de Dataiku DSS).
- O usando un orquestador externo, con escenarios de Dataiku activados por la API REST de Dataiku.
En ambos casos, el flujo de trabajo se inicia automáticamente después de que se activa un evento (desencadenantes como cambio de datos, solicitud de recálculo cada 5 minutos, etc.). Es posible un seguimiento muy avanzado del flujo de trabajo gracias a la variedad de disparadores, gracias a las sondas (llamadas sondas) para verificar métricas y gracias a las alertas de usuario.
Despliegue e industrialización de flujos de trabajo
La plataforma permite empaquetar el flujo de trabajo incluyendo tanto los datos como los modelos (es decir, todos los flujos de trabajo).
Hay 2 tipos de instancias para la implementación: el nodo de diseño (instancia diseñada para el desarrollo) y el nodo de automatización (instancia de automatización del flujo de trabajo).
Una sola interfaz reúne los modelos de implementación: desde el desarrollo hasta las pruebas y desde la preproducción hasta la producción.
Entrar en producción con Dataiku DSS es más fácil gracias a la posibilidad de administrar versiones de modelos, realizar reversiones y monitorear flujos de trabajo. Por lo tanto, las implementaciones se automatizan dentro de una estrategia de producción más global donde todos los escenarios de datos se pueden lanzar desde dentro de Dataiku o fuera de la plataforma utilizando la API REST.
Dataiku DSS: ¿Beneficios de la plataforma?
Reflejos | |
Funcionalidades | Descripción |
Integración de datos | + Conectividad con otros ecosistemas e infraestructuras en la nube+ Detección automática de esquemas y formatos de datos+ Acceso rápido a datos |
Preparación de datos | + Interfaz gráfica de acceso simple y rápido+ 80 procesadores visuales para simplificar las operaciones de preparación de datos (sin código)+ Preparación de datos en modo código o sin código, dependiendo de la experiencia técnica del usuario |
Poner el flujo de trabajo y las plantillas en producción | + Simple de implementar y monitorear. Posibilidad de configurar sistemas de alerta de usuarios+ Recálculo inteligente del flujo de datos según la antigüedad de los datos |
Entorno colaborativo | + gestión de proyectos, chat, wiki y herramientas de control de versiones |
Dato de governancia | + Catálogo centralizado de datos y metadatos.+ Auditoría rápida de datos, registros y actividades de los usuarios con un tablero dedicado.+ Seguridad con administración y monitoreo de permisos de usuarios. |
Aprendizaje automático e IA | + Interfaz dedicada (Datalab) para configuración, desarrollo y monitoreo de modelos de aprendizaje automático. + Amplia variedad de complementos de IA |
Soporte técnico y documentación | + Buena capacidad de respuesta del soporte técnico. |
¿Cómo aprender sobre Dataiku?
Dataiku ha establecido una plataforma de aprendizaje electrónico dedicada a aprender sobre Dataiku. Se llama Dataiku Academy y ofrece un conjunto de cursos de formación online. Existen programas Quicks Start que le permiten comenzar a utilizar la solución en tan solo unas horas. Dependiendo de tu negocio, existen sesiones para un aprendizaje más avanzado: estas son las Rutas de Aprendizaje para adquirir las habilidades que requiere tu negocio.
Cada programa conduce a una certificación de Dataiku: Certificado de diseñador básico, Certificado de profesional de ML, Certificado de diseñador avanzado, Certificado de desarrollador y Certificado de profesional de MLOps.
Estas certificaciones son gratuitas y abiertas a todos.
Dataiku y el Devoteam TechRadar
Este artículo es parte de una serie más amplia centrada en las tecnologías y los temas que se encuentran en la primera edición de Devoteam TechRadar. Para leer más sobre estos temas, descargue TechRadar .