Vamos ver de uma forma simples a diferença entre dados estruturados (“structured data”) e dados não-estruturados (“unstructured data”).
Dados estruturados são os dados que se apresentam de forma organizada e numa estrutura que facilmente entende-se, semelhante ao que encontramos em nas bases de dados relacionais – SQL, ou mesmo a uma folha de excel. Encontram-se organizados por linhas e colunas; são caracterizados por possuírem um cabeçalho (ou esquema de nome de cada coluna/variável), tem uma organização compreensível, e há consistência no tipo de dados contido nelas. Estas são algumas da característica de dados estruturados:
Formato e Organização: Dados estruturados contram tipicamente organizados em linhas e colunas, para fácil consulta e análise. Cada coluna ou variável tem um formato predefinido, e as relações entre pontos de dados são claramente definidas. Por exemplo, numa base de dados relacional pode conter tabelas com cada linha contendo informações de clientes, e colunas/variáveis contendo detalhes como nome, morada, e histórico de compra dos clientes.
Consistência: os dados estruturados apresentam considerável nível de consistência, permitindo e facilitando análise e a comunicação (relatórios). (facilitando imenso a análise).
Esquema de cabeçalho: os dados estruturados têm associado um cabeçalho que descreve a estrutura dos dados. O esquema define as colunas/variáveis desses dados, tipos e relacionamentos entre os dados. As alterações do esquema são normalmente bem documentadas e controladas.
Consulta: o processo de consulta de dados estruturados direto e simples, geralmente usando o SQL no caso de base de dados relacionais.
Exemplos: base de dados dos clientes, registros de inventários, dados macroeconômicos, planilhas ou folha de Excel.
Ao contrário dos dados estruturados, estes dados carecem de uma estrutura organizada. Não enquadram num esquema pré-definido. Os dados não-estruturados incluem conteúdos em textos, imagens, áudios, e vídeos. Seguem-se as características essenciais dos dados não-estruturados:
Ausência de Estrutura: os dados não-estruturados não apresentam uma organização clara, tabular ou mesmo formato em hierarquia. Textos, por exemplo, podem conter frases, parágrafos ou mesmo notas livres. Vídeos e imagens consistem em frames e pixels, e áudio é gravado em ondas sonoras.
Diversity: estes dados são verdadeiramente diversos. Podem abranger quase tudo, desde postagens nas redes sociais, emails, blogs, imagens, e gravação de áudio.
Nao Esquema Fixo: dados não enquadram num esquema fixo. Não possuem um tipo de dados predefinidos. Essa falta de estrutura aumenta o desafio no processo de consulta de dados e análise ao utilizarmos a tradicional base dados relacional (SQL).
Complexidade: para extrair alguma informação útil nos dados não-estruturados recorrer da especialista a compreensão do contexto e semântica. No Tratamento da Linguagem Natural (“Natural Language Processing” – NLP) as técnicas de aprendizado de máquina (“Machine Learning”) são usadas a fim de encontrar importância nos dados em forma de textos. Enquanto, a visão computacional (“computer vision”) a técnica aprendizagem profunda, da redes neurais (“Neural Network”) são aplicadas para imagem e o texto.
Exemplos de dados não-estruturados: postagens nas redes sociais, gravação áudio, conteúdos vídeo, imagens, emails, e textos, blog, etc.
Entretanto, importa salientar que significativa de dados no mundo encontram-se numa outra categoria de dados – Semi-estruturada; que exibem elementos de tanto dados estruturados e não-estruturados. Por exemplo, temos dados em formatos XML e JSON que mantêm uma certa estrutura, mas o conteúdo presente neles podem variar. Para manusear estes dados requer frequentemente uma abordagem flexível que adapta a sua estrutura variada.
Em resumo, os dados estruturados são muito organizados e seguem um determinado esquema, permitindo fácil compreensão e análise. Dados não-estruturados, por seu lado, é diverso e carece um esquema requerendo, assim, tanto técnicas e ferramentas avançadas de análise.
Atualmente, tanto dados estruturados quanto não-estruturados desempenham uma função central no processo de extração de informação útil e na tomada de decisão. Assim, as empresas devem aprimorar a capacidade de processamento das duas formas de dados para estarem competitivas e manterem informadas sobre tendências e fenômenos que dados podem revelar.