quinta-feira, setembro 29, 2022

Crisp-DM: as 6 etapas da metodologia do futuro

Em um mundo cada vez mais volátil, onde um pequeno acontecimento pode gerar consequências desastrosas para empresas do outro lado do planeta, é cada vez mais necessária a utilização de estratégias baseadas em dados. Por isso, a metodologia Crisp-DM pode ser uma ferramenta imprescindível no mundo empresarial atual, possibilitando prever problemas e criar soluções a partir de dados já existentes.

O nome Crisp-DM é uma sigla para o inglês Cross Industry Standard Process for Data Mining, que em português significa algo como “Processo Padrão Inter-Indústrias para Mineração de Dados”. O objetivo dessa metodologia é desenvolver modelos a partir da análise de informações e dados de um negócio para prever futuras falhas e soluções.

Para você entender melhor como funciona esta metodologia, conversamos com Helder Prado, professor do MBA em Data Science e Analytics USP/Esalq. Ele explica todas as etapas da Crisp-DM e como podemos utilizar a metodologia para nosso benefício. Continue lendo!

Leia também: Engenheiros de dados na equipe: prepare sua empresa

Os dados

De acordo com o professor, a Crisp-DM é dividida em seis etapas fundamentais, cada uma com suas particularidades e funcionalidades. “As três primeiras etapas têm como objetivo a coleta e organização dos dados a serem analisados. Elas são o entendimento do negócio, o entendimento dos dados e a preparação dos dados”, detalha.

Entendimento do negócio: A primeira etapa é, possivelmente, a mais importante de todo o processo. Caso ela não seja feita da maneira correta, todo o resto do projeto pode ser invalidado futuramente. Nesta etapa, é definido o objetivo do projeto e as necessidades da empresa ou projeto em análise. Por isso, é necessário que todos estejam bem-informados e completamente alinhados.

Entendimento dos dados: Depois da primeira etapa, podemos começar a pensar nos dados que serão utilizados no processo. Para isso podemos fazer várias perguntas, como: “A empresa tem banco de dados? Os dados serão acessados de que forma? Quantas fontes de dados serão utilizadas? Quais serão os formatos dos dados? Os dados estão estruturados?”. A partir delas, é feita a coleta dos dados, tomando cuidado para que nenhuma informação importante fique de fora.

Preparação dos dados: Com os dados já coletados, é preciso organizá-los de modo a conseguirmos enxergar o que eles contam. Esta etapa também pode ser guiada por algumas perguntas: “Como os valores nulos devem ser tratados? Os atributos estão nos formatos corretos? Será necessário fazer alguma fusão com outros dados? Quais variáveis serão utilizadas na modelagem?”. Esta costuma ser a parte mais demorada e trabalhosa de todas, porém um bom trabalho aqui significa menos retrabalho futuro.

Lei mais: Como a digitalização pode impactar a empresa em que você trabalha

Criando um modelo

Homem sentado a frente de uma mesa, digitando em um notebook com diversos dados, tabelas e gráficos.
A Crisp-DM pode ser utilizada em qualquer tipo de negócio.

Segundo Prado, as últimas três etapas têm como objetivo a criação do modelo, baseado nas etapas anteriores, e a colocação deste modelo em prática. É aqui que todo o trabalho anterior será testado e, caso necessário, refeito. Elas são a modelagem, avaliação e implementação (ou deployment).

Modelagem: Nesta etapa o modelo começa a tomar forma e podemos ver os primeiros resultados. O tipo de modelagem a ser utilizada normalmente é definida de acordo com a necessidade do negócio e com o tipo de variável a ser analisada. Com a definição de qual modelo será utilizado, devem ser definidos quais atributos serão variáveis na construção deste modelo. “Aqui pode ser muito útil voltar à primeira etapa para conferir objetivos e encontrar novas possibilidades”, aconselha Prado.

Avaliação: Com o modelo já em mãos, podemos avaliar se o se o resultado corresponde à expectativa do projeto. Caso a resposta seja negativa ou a equipe considere que há espaço para melhorias, todas as forças devem ser direcionadas para fazer as mudanças necessárias. Estas mudanças podem ter diversas formas, como a retirada de atributos estatisticamente insignificantes, correção na entrada de dados, correção no tratamento dos atributos etc.

Implementação (deployment): Caso o processo tenha sido feito da maneira correta, esta será a última etapa. Aqui, o modelo deve ser colocado em produção, de modo a agregar valor para o negócio. A forma como isso é feito varia muito, dependendo do tipo de modelo e projeto. Esse modelo deve ficar exposto para acesso, normalmente armazenado na nuvem ou em servidores locais da própria empresa.

Leia também: 5 Metodologias ágeis que você pode adotar em projetos

Crisp-DM na prática

Confiança é o primeiro passo para o sucesso profissional!

Para mostrar como esta metodologia funciona na prática, o professor utiliza o exemplo de uma máquina específica que é crucial para uma operação e, portanto, deve estar sempre em funcionamento. Além disso, a máquina possui um sensor interno que tabula diversos parâmetros de si mesma a cada hora.

“Desta forma, na etapa de entendimento do negócio, definimos que o objetivo do modelo a ser criado utilizando a Crisp-DM será prever quando a máquina está perto de dar defeito, utilizando os parâmetros da própria máquina. Na segunda etapa consideraremos quais dados tabulados pela máquina serão utilizados na construção do modelo, já que nem todos eles são úteis para nós no momento”, exemplifica.

Com a definição de quais dados queremos, podemos, então, ir para a etapa de preparação dos dados, quando eles serão organizados. Isso implica em alteração de formato, junção de tabelas, entre outras medidas. Com todos os dados prontos, podemos começar a modelagem ao escolher o algoritmo que melhor representa as necessidades do projeto, neste caso, se a máquina funcionará ou não.

Caso o modelo criado não tenha um desempenho bom o suficiente, será preciso, então, voltar às etapas anteriores e ver o que pode ser alterado. “Uma coisa que pode ser feita é identificar outras variáveis explicativas que podem ajudar a estimar melhor o modelo; outra é utilizar um algoritmo para retirar atributos que não são estatisticamente significantes, entre várias outras estratégias”, explica Prado.

Após todas as revisões necessárias serem feitas e a aquisição de um modelo funcional, é hora de colocar o modelo para produção. “Nesse caso em específico, pode ser feito uma Interface de Programação de Aplicações (API) que receba uma requisição sempre que o sensor capte uma nova linha de informação e o modelo identifique se a máquina está próxima ou não de falhar e altere os parâmetros da máquina para diminuir a chance de falha”, comenta o professor.

As vantagens

Duas pessoas sentadas em uma mesa, cada uma com um notebook aberto e ligado a frente de si, conversam sobre as anotações em folhas de papel em cima da mesa.
A Crisp-DM é uma metodologia versátil, que combina diversos atributos em um só projeto.

Prado destaca que o grande benefício da metodologia Crisp-DM em relação a outras de mineração de dados é a integração da criação de um modelo com o entendimento do negócio. Por isso é que ela seria tão utilizada nas empresas, além de poder ser utilizada em qualquer tipo de negócio.

Mesmo assim, ele deixa claro que ela não é perfeita: “Ao longo da vida dessa operação, provavelmente esse modelo precisará ser estimado novamente com novos dados do sensor e assim o ciclo se renova”, conclui.

Gostou de aprender sobre a Crisp-DM? Quer entender como colocar esta metodologia e várias outras em prática? Então, se inscreva no MBA em Data Science e Analytics USP/Esalq! Confira!

Você também pode gostar:

Autor (a)

Caio Roberto
Caio Roberto
Jornalista e amante de história, línguas estrangeiras, cinema, literatura e videogames. Utilizo minha curiosidade natural e minha facilidade de me comunicar para descobrir mais sobre o mundo e tentar passar isso adiante. Acredito que nasci para contar histórias, independente da história, da mídia em que ela será contada e do meu papel nela.

Compartilhar