Ciências de Dados é um campo multidisciplinar, ela combina conhecimento vindo de diversas áreas de saber, sobretudo da disciplina de Estatística, Ciências Computacionais, e domínio ou conhecimento/experiência adquirida na área de trabalho a fim de extrair padrões e tendências num determinado conjunto de dados relativo a um fenómeno em causa. As atividades dentro de Data Science englobam recolha/aquisição de dados, limpeza destes dados para análise e visualização com objectivo de se tomar decisões informadas, ou seja, decisões baseadas em dados do fenómeno em causa. Por exemplo, em caso de criminalidade, estas decisões são tomadas com base numa observação dos comportamentos dos indivíduos envolvidos nestas ações.
Basicamente, Data Science (ciência de dados) gira em torno da recolha e manipulação de dados. Durante o processo de recolha de dados o especialista (cientista de dados) usa diferentes técnicas de tratamento de dados a fim organizar estes numa forma estruturada, como as de uma base de dados ou folha de excel. Os dados aparecem essencialmente em estrutura a que chamamos de Dados Estruturados e Dados Não Estruturados. Dados Estruturados são dados que apresentavam de forma estruturada semelhante àqueles numa folha de excel ou base de dados SQL por exemplo. Enquanto Dados Não Estruturados são informações em formatos de imagens, vídeos, sons, sinais, e qualquer documento de textos. Desta forma o cientista de dados tem a responsabilidade em proceder a limpeza e a organização destes dados para que seja possível realizar as análises. Nesta fase, frequentemente, lida-se com situações críticas como dados em falta, dados discrepantes (“outliers”), e outras problema associadas à qualidade dos dados (que podem pôr em causa a utilidade destas informações).
Visualização de dados é um aspecto crucial na Data Science. Com recurso a diversas técnicas de visualização de dados, simples e apelativas, incluindo gráficos e infográficos entre outros, facilita comunicar a outros especialistas (não-especializada, como CEO, ou mesmo Diretor de Marketing, etc.) resultados encontrados. Assim, todos os indivíduos com interesse estarão bem informados e entendidos do problema. Particularmente, aqueles com poderes de decisão podem tomá-lo informado, com maior segurança e bem justificada.
O campo de Data Science também depende imenso do conhecimento da indústria ou área em estudo. A compreensão das nuances específicas do setor é essencial para formulação de questões significativas, seleção de variáveis apropriadas e interpretação de resultados daí extraídos. Um cientista de dados ou “data scientist” deve colaborar com especialista no setor (ou mesmo possuir esse conhecimento) a fim obter insights que vão além dos dados.
Um dos pontos fortes de Data Science é sua versatilidade. Data Science tem aplicação em mais variados domínios ou industriais, desde finanças, saúde, marketing, ambiente, agricultura, etc. Por exemplo, estas técnicas podem ser usadas em saúde, para prever o surgimento de uma pandemia, melhor planos de tratamentos, ou análise dos dados dos pacientes durante uma pesquisa. In marketing, pode ser usada, por exemplo, para entender o comportamento dos clientes, segmentar audiência, e personalizar as campanhas de marketing, etc.
Big Data (megadados ou macrodados – conjuntos de dados de grande volume de dados, variedade de dados e grande velocidade de aquisição) desempenha uma função na evolução de Data Science; com advento de massivos dados, ferramentas e técnicas para processamento a análise de dados tem avançado. Por exemplo, tecnologias como Hadoop and Spark possibilitam processar dados em grande escala, em paralelo com a “deep learning” (técnica de aprendizagem profunda, algoritmo de baseado na técnica de redes neurais – “Neural Network”) permitem tratamento de dados não estruturados complexos, como imagens e textos (com técnica de tratamento de linguagem natural, “Natural Language Processing” – NLP).
As considerações éticas e de privacidade são críticas em Data Science. Considerando o poder de obtenção de insights a partir dos dados, torna nítido a responsabilidade de usá-los de forma ética e proteger a privacidade dos indivíduos. Os cientistas de dados devem estar cientes dos possíveis preconceitos nos dados dados e devem lidar com dados confidenciais com o cuidado a fim de evitar violações de privacidade e discriminacao.
Como vimos, Data Science é um campo dinâmico e interdisciplinar que usa dados, estatística, e tecnologias para extrair valiosas informações a fim reduzir incerteza na tomada de decisão. Ela é uma disciplina versátil capaz de ser aplicada em várias indústrias e domínios. Além disso, a sua importância aumenta cada vez mais considerando o aumento da disponibilidade de dados e o avanço da capacidade computacional. Um Cientista de Dados é um intermediário entre os dados e os decisores (indivíduos que tomam a decisão) , guiando as organizações a tomarem decisões informadas neste mundo cada vez mais baseado em dados.