En un mundo cada vez más volátil, donde un pequeño acontecimiento puede generar consecuencias desastrosas para empresas del otro lado del planeta, es cada vez más necesaria la utilización de estrategias basadas en datos. Por eso, la metodología Crisp-DM puede ser una herramienta imprescindible en el mundo empresarial actual, posibilitando prever problemas y crear soluciones a partir de datos ya existentes.
El nombre Crisp-DM es una sigla para el inglés Cross Industry Standard Process for Data Mining, que en español significa algo como “Proceso Estándar Inter-Indsutrias para Minería de Datos”. El objetivo de esa metodología es desarrollar modelos a partir del análisis de informaciones y datos de un negocio para prever futuras fallas y soluciones.
Para usted entender mejor cómo funciona esta metodología, conversamos con Helder Prado, profesor del MBA en Data Science y Analytics USP/Esalq. Él explica todas las etapas de la Crisp-DM y cómo podemos utilizar la metodología para nuestro beneficio. ¡Continue leyendo!
Los datos
De acuerdo con el profesor, Crisp-DM es dividida en seis etapas fundamentales, cada una con sus particularidades y funcionalidades. “Las tres etapas tienen como objetivo la recolección y organización de los datos a ser analizados. Ellas son el entendimiento del negocio, el entendimiento de los datos y la preparación de los datos”, describe.
Entendimiento del negocio: La primera etapa es, posiblemente la más importante de todo el proceso. En caso de que no sea hecha de la manera correcta, todo el resto del proyecto puede ser invalidado futuramente. En esta etapa, es definido el objetivo del proyecto y las necesidades de la empresa o proyecto en análisis. Por eso, es necesario que todos estén bien informados y completamente alineados.
Entendimiento de los datos: Después de la primera etapa, podemos comenzar a pensar en los datos que serán utilizados en el proceso. Para eso podemos hacer varias preguntas, como: “¿La empresa tiene banco de datos? ¿Los datos serán accesados de qué forma? ¿Cuántas fuentes de datos serán utilizadas? ¿Cuáles serán los formatos de los datos? ¿Los datos están estructurados?”. A partir de ellas, es hecha la recolección de los datos, tomando cuidado para que ninguna información importante quede fuera.
Preparación de los datos: Con los datos ya recolectados, es necesario organizarlos de modo que podamos ver lo que ellos cuentan. Esta etapa también puede ser guiada por algunas preguntas: “¿Cómo deben ser tratados los valores nulos? ¿Los atributos están en los formatos correctos? ¿Será necesario hacer alguna fusión con otros datos? ¿Qué variables serán utilizadas en el modelado?”. Esta suele ser la parte más demorada y trabajosa de todas, pero un buen trabajo aquí significa menos retrabajo futuro.
Creando un modelo
Según Prado, las últimas tres etapas tienen como objetivo la creación del modelo, basado en las etapas anteriores, y la colocación de este modelo en práctica. Es aquí que todo el trabajo anterior será probado y, en caso necesario, rehecho. Ellas son el modelado, evaluación e implementación (o deployment).
Modelado: En esta etapa el modelo comienza a tomar forma y podemos ver los primeros resultados. El tipo de modelado a ser utilizado normalmente es definido de acuerdo con la necesidad del negocio y con el tipo de variable a ser analizada. Con la definición de qué modelo será utilizado, deben ser definidos qué atributos serán variables en la construcción de este modelo. “Aquí puede ser muy útil volver a la primera etapa para verificar objetivos y encontrar nuevas posibilidades”, aconseja Prado.
Evaluación: Con el modelo ya en manos, podemos evaluar si su resultado corresponde a la expectativa del proyecto. En caso de que la respuesta sea negativa o el equipo considere que hay espacio para mejoras, todas las fuerzas deben ser dirigidas para hacer los cambios necesarios. Estos cambios pueden tener diversas formas, como la retirada de atributos estadísticamente insignificantes, corrección en la entrada de datos, corrección en el tratamiento de los atributos etc.
Implementación (deployment): En caso de que el proceso haya sido hecho de la manera correcta, esta será la última etapa. Aquí, el modelo debe ser colocado en producción, de modo a agregar valor para el negocio. La forma como eso es hecho varía mucho, dependiendo del tipo de modelo y proyecto. Ese modelo debe estar expuesto para acceso, normalmente almacenado en la nube o en servidores locales de la propia empresa.
Crisp-DM en la práctica
Para mostrar cómo esta metodología funciona en la práctica, el profesor utiliza el ejemplo de una máquina específica que es crucial para una operación y, por lo tanto, debe estar siempre en funcionamiento. Además de eso, la máquina posee un sensor interno que tabula diversos parámetros de sí misma a cada hora.
“De esta forma, en la etapa de entendimiento del negocio, definimos que el objetivo del modelo a ser creado utilizando la Crisp-DM será prever cuándo la máquina está cerca de dar defecto, utilizando los parámetros de la propia máquina. En la segunda etapa consideraremos qué datos tabulados por la máquina serán utilizados en la construcción del modelo, ya que no todos ellos son útiles para nosotros en el momento”, ejemplifica.
Con la definición de qué datos queremos, podemos, entonces ir para la etapa de preparación de los datos, cuando ellos serán organizados. Eso implica una alteración de formato, unión de tablas, entre otras medidas. Con todos los datos listos, podemos comenzar el modelado al elegir el algoritmo que mejor representa las necesidades del proyecto, en este caso, si la máquina funcionará o no.
En caso de que el modelo creado no tenga un desempeño bueno lo suficiente, será preciso, entonces, volver a las etapas anteriores y ver lo que puede ser modificado. “Una cosa que puede ser hecha es identificar otras variables explicativas que pueden ayudar a estimar mejor el modelo; otra es utilizar un algoritmo para retirar atributos que no son estadísticamente significantes, entre varias otras estrategias”, explica Prado.
Después de que todas las revisiones necesarias hayan sido hechas y la adquisición de un modelo funcional, es hora de poner el modelo para producción. “En ese caso en específico, puede ser hecho una Interfaz de Programación de Aplicaciones (API) que reciba una solicitud siempre que el sensor capte una nueva línea de información y el modelo identifique si la máquina está próxima o no de fallar y cambie los parámetros de la máquina para disminuir la probabilidad de falla”, comenta el profesor.
Las ventajas
Prado destaca que el gran beneficio de la metodología Crisp-DM en relación a otras de minería de datos es la integración de la creación de un modelo con el entendimiento del negocio. Por eso es que ella sería tan utilizada en las empresas, además de poder ser utilizada en cualquier tipo de negocio.
Incluso así, él deja claro que ella no es perfecta: “A lo largo de la vida de esa operación, probablemente ese modelo necesitará ser estimado nuevamente con nuevos datos del sensor y así el ciclo se renueva”, concluye.
¿Te gustó aprender sobre la Crisp-DM? ¿Quiere entender cómo poner esta metodología y varias otras en práctica? ¡Entonces, inscríbase en el MBA en Data Science y Analytics USP/Esalq! ¡Vea!