A Ciência de Dados é uma área totalmente multidisciplinar. Isso significa que profissionais de todos os segmentos de atuação ou departamentos corporativos podem e devem conhecer os três pilares de Data Science para contribuírem com a tomada de decisão, uma das habilidades mais importantes para o profissional do futuro.
Antes de listarmos quais são esses três pilares de Data Science e explicarmos a importância de cada um, que tal entender um pouquinho sobre o contexto dos profissionais que procuram pelo MBA em Data Science e Analytics USP/Esalq e o que o mercado de trabalho espera deles?
Quem explica tudo isso é o professor Luiz Paulo Fávero, que também é vice coordenador USP do curso. “É muito comum encontrarmos na pós-graduação em DSA alunos de áreas como ciência da computação, engenharia, estatística, ciências sociais aplicadas, economia, administração, marketing, finanças, contabilidade entre outras.”
“Contudo, profissionais que, aparentemente, não têm relação alguma com a área, como jornalistas, médicos, dentistas, veterinários e advogados, por exemplo, também fazem uso direto ou indireto dos conceitos da Ciência de Dados para a tomada de decisão”, explica.
Trabalho sem dados?
Pensando nisso, o professor é enfático ao dizer que, atualmente, é impossível trabalhar sem levar em consideração a Ciência de Dados. “Independentemente do setor, seja indústria, varejo, serviços, agronegócios ou financeiro, por exemplo, hoje somos inundados por dados, estruturados ou não, provenientes de diversas fontes”, destaca Fávero.
Essas fontes são classificadas em:
- Primárias: como pesquisas com consumidores e pesquisas de satisfação
- Secundárias: como dados de associações, do Banco Central etc.
“Hoje, a quantidade de dados é tão grande, extensa e vinda de múltiplas fontes, que não faz sentido olharmos para uma área e dizermos que ela está mais ou menos relacionada com Data Science do que outra.”
Estudo contínuo e especializado
Ainda contextualizando antes de apresentar os três pilares de Data Science, Fávero compara, se atentando às devidas proporções, o profissional da Ciência de Dados com a Medicina.
“O estudo nessa área é contínuo e tornar-se um cientista de dados é um arrojo muito grande. Em analogia, os médicos passam uma vida estudando sobre determinada área de especialização. Na Ciência de Dados, também temos os especialistas.”
O professor fez uma lista de exemplos:
- Engenheiro de dados, responsável pela estrutura ou coleta dos dados
- Engenheiro de Machine Learning, que trata os dados e implementa o algoritmo
- Engenheiro de software, que olha para o background para estruturar e analisar os dados
- Arquiteto de dados, que desenvolve toda a relação entre os dados
“Além disso, ainda temos profissionais de tecnologia da informação e estatística. Mas não quer dizer que profissionais de outras áreas não podem entrar no campo da Data Science, porque nada disso faria sentido se não olhássemos para essa parte de estruturação e análise de dados com foco em geração de outputs para tomada de decisão”, completa.
Segundo Fávero, o conhecimento profundo e estratégico do negócio, mesmo que sem muito conhecimento sobre a implementação de determinado algoritmo ou fundamentação estatística, por exemplo, é essencial.
Pilares de Data Science
“A questão por trás da Ciência de Dados envolve uma análise pervasiva para todas as esferas da organização. Isso quer dizer que todas as áreas, departamentos e diretorias precisam entender a importância do Data Science, do Analytics, da análise de dados e do reconhecimento de padrões, que é de fato o Machine Learning, para fins de determinação de modelos preditivos ou modelos diagnósticos”, comenta o professor.
“Não cabe mais chegar, por exemplo, no jurídico de uma empresa, pedir um dado e os profissionais daquela área não terem tempo ou estarem muito focados em outras atividades. Eles precisam entender que Data Science gera payback para toda a organização. Essa questão cultural é fundamental.”
Agora sim, com esse embasamento completo, confira os três pilares de Data Science:
- Fundamentos: eles são imprescindíveis para sabermos exatamente o que estamos implementando em termo de código. É preciso conhecer os conceitos e fundamentos estatísticos, algébricos, econométricos, de cálculo, de pesquisa operacional entre outros.
- Implementação correta de algoritmos: esse pilar deriva do primeiro. Afinal, só é possível implementar o código de forma eficiente se houver base nos fundamentos descritos acima, independentemente do software utilizado (no MBA em Data Science, utilizamos mais o R; no MBA em Digital Business USP/Esalq, é utilizado o Gretl. Também existem opções pagas, como o Stata).
- Interpretação de outputs: o terceiro pilar está relacionado à obtenção de resultados e à capacidade de interpretá-los para fins de tomada de decisão. Para isso, é importante ter conhecimento do negócio para poder extrair informações que vão orientar a alocação de recursos, por exemplo.
Equilíbrio é tudo
Muito cuidado aqui para não achar que só porque os pilares de Data Science foram apresentados em uma ordem eles necessariamente possuem uma hierarquia entre si. “Um pilar não é mais importante do que o outro. É preciso ter atenção com o desbalanceamento de importância entre eles”, alerta Fávero.
“O pilar do fundamento, por exemplo, é muito importante, mas por si só não faz com que sejam traduzidos de maneira correta os dados e informações que embasam a tomada de decisão”, diz.
O segundo pilar que apresentamos são as ferramentas. Contudo, sem conhecimento de fundamentos, os profissionais podem implementar algoritmos errados, que não levam em consideração determinada natureza de uma variável.
“Aqui no MBA USP/Esalq nós não formamos apertadores de código. Muitas pessoas anseiam em conhecer logo os softwares, mas é preciso começar e conhecer os fundamentos de cada tipo de técnica de Machine Learning e Analytics. A partir disso, é possível implementar os códigos no software escolhido”, enfatiza o professor.
E sobre o pilar dos outputs, Fávero é claro: “Se você não tiver condições de avaliar, por exemplo, a natureza dos dados, a escala de mensuração de cada variável e a implementação, você se torna um tomador de decisão vazio, completamente sem embasamento.”
Os principais erros de Analytics
Agora que você já sabe quais são os pilares de Data Science e como eles estão interligados, saiba que os principais erros de Analytics tem a ver com o desequilíbrio entre os pilares e o desconhecimento de boas práticas dentro de cada um deles.
Fávero exemplifica ao falar sobre técnicas de Machine Learning que têm por fundamento a utilização de apenas um determinado tipo de variável, como a quantitativa.
“Essa técnica, então, vai extrair um score a partir do tratamento da interrelação de variáveis quantitativas, como a análise de cluster, por exemplo. Porém, continuamos vendo profissionais do mundo acadêmico e do mercado de trabalho que implementam algoritmos de ‘clusterização’ fazendo uso de variáveis qualitativas, implementando uma ponderação arbitrária”, detalha.
O professor continua: “Essa ponderação arbitrária para variáveis que representam, por exemplo, somente diferencial semântico, faz com que os modelos surjam cada vez mais de maneira enviesada. E, a partir daí, segue a tomada de decisão. Existem técnicas que têm por prerrogativa o uso de variáveis apenas qualitativas, só com medidas de frequência, em porcentagem, por exemplo. Sem precisar atribuir pesos arbitrários às categorias.”
O profissional unicórnio
Encontrar um cientista de dados ou um profissional de Ciência de Dados que tenha domínio dos três pilares de Data Science é muito raro. Por isso, são chamados de unicórnios.
“O que vemos são as equipes ‘unicórnias’, com profissionais distribuídos em funções relacionadas a esses pilares. Assim, é fundamental que as empresas reconheçam essas atribuições, essas carreiras, para que efetivamente as decisões possam ser mais bem embasadas”, conclui.
Gostou de conhecer os pilares de Data Science com quem entende do assunto? Comente 😊