É como uma biblioteca: pesquise, entenda e encontre os dados necessários
Mais do que utilizar dados para gerar insights e resolver problemas de negócios, uma organização necessita de um bom gerenciamento dessa matéria prima, a fim de evitar diversos problemas e tornar o processo mais ágil, coordenado e sem fricção. Nesse sentido, um catálogo de dados bem elaborado faz toda a diferença.
Os principais problemas que as organizações que estão se tornando data-driven enfrentam são comuns entrei si.
Vejamos:
-
Grande demora para encontrar os dados;
-
Dados duplicados, dispersos em vários lugares;
-
Não há como saber quem está usando quais dados e para quê;
-
Falta de clareza da fonte primária dos dados;
-
Documentação pouco acessível, transparente e comumente desatualizada;
-
Linguagem despadronizada para rotular os dados;
-
Armazenagem frágil, em planilhas de Excel muitas vezes;
-
Dependência de determinadas pessoas que detém o monopólio do acesso aos dados e funcionam quase como gatekeepers, travando o processo;
Todos esses problemas têm um sintoma comum, que é a má gestão dos dados. Atrapalha demais a falta de uma plataforma, ferramenta ou ambiente em que todos podem consultar os dados, acessando um inventário comum de seus metadados, definições e outros itens relacionados. É aqui que entra a ideia de um data catalog.
Data Catalog
Ter um catálogo de dados é como ir à biblioteca. Quando precisamos encontrar um livro, usamos o catálogo para descobrir se o livro está lá, onde está localizado, uma descrição do que ele contém, o autor, quando foi escrito, os assuntos principais… tudo o que é necessário para decidirmos se vamos lê-lo e como encontrá-lo.
Isso é o que um data catalog corporativo faz com todos os dados de uma empresa. Ele oferece uma visão única e abrangente, além de uma visibilidade mais profunda de todos os dados disponíveis.
O catálogo de dados é uma ferramenta ou plataforma que capacita uma organização a armazenar, enriquecer e colaborar na constituição de dados importantes, como domínios, entidades, glossários de dados e documentação. Também é um mecanismo de busca para metadados – aqueles dados que explicam outros dados – e as pessoas podem colaborar na descrição desses dados. É como um Google combinado com Wikipédia, levando para plataformas que todos compreendem facilmente.
Um catálogo de dados deve fornecer pelo menos o seguinte:
-
Conjunto de metadados (metadados comerciais, técnicos, jurídicos e específicos do cliente);
-
Contexto de contribuição humana (artigos, documentos, guias, comentários, definições) para documentação sobre entidades de dados, domínios, fontes, tabelas e colunas;
-
Modelos para colaboração;
-
Automação movida a inteligência artificial e recomendação;
-
Gerenciamento e linhagem de dados;
-
Interface de consulta.
Depois que um catálogo de dados é criado, por meio de uma boa governança, a ideia é que ele possa ir sendo enriquecido com o tempo de forma colaborativa por uma série de usuários. No fundo, praticamente todos os membros da organização podem participar para agregar valor e, como resultado, isso vai contribuindo para a própria alfabetização de dados da empresa. No limite, isso ajuda a implantar mais rapidamente ferramentas de integração de dados, motores de IA, algoritmos de ML e ferramentas analíticas.
Utilização e benefícios
De acordo com o Gartner, “em 2021, as organizações que oferecem um catálogo com curadoria de dados internos e externos para diversos usuários obterão o dobro do valor comercial de seus investimentos em dados e análises do que aquelas que não o fazem”.
O catálogo de dados se torna essencial no ambiente corporativo porque sintetiza todos os detalhes e ativos em uma espécie de dicionário, organizando tudo em um formato simples e de fácil entendimento.
Um dos principais benefícios é o impacto que gera nas atividades de análise e utilização de dados. As vantagens principais percebidas são:
Velocidade e autoatendimento
Ao invés de solicitar os dados para profissionais de TI e esperar que eles realizem a parte de coleta e análise, os próprios usuários conseguem fazer suas pesquisas. Isso reduz a espera e agiliza o trabalho das equipes. Inclusive, os especialistas também ficam com mais tempo para pensar em melhorias e inovações. Ou seja: o dia a dia de todos é otimizado!
Pesquisas abrangentes e acesso a dados relevantes
Em uma ferramenta comum, um usuário sem conhecimento específico não tem como saber se está faltando dados relevantes ou se há ativos desatualizados. A menos que ele realize uma pesquisa mais abrangente – algo que o catálogo de dados permite. Além de ampliar a análise, também fornece informações detalhadas e qualificadas.
Contexto significativo
O catálogo de dados permite que o usuário leia descrições sobre elas, acesse definições de termos e, ainda, leia comentários fornecidos por outras pessoas. Desta forma, facilita que o ativo de dados seja incorporado no contexto do negócio e, portanto, ganhe significado.
Melhoria na confiança dos dados
É possível visualizar e traçar perfis de dados. Por exemplo, fica mais fácil saber se os campos possuem valores nulos ou estão incorretos. Essa funcionalidade é muito útil no processo de limpeza, além de melhorar a confiança em relação às informações obtidas.
Proteção dos dados
Para que não seja necessário mascarar colunas, o catálogo de dados permite executar regras automaticamente. Ou seja: não é necessário se preocupar que determinadas informações caiam em mão erradas. Basta criar classificações e gerenciar os acessos.
As organizações estão se esforçando cada vez mais para se tornar data-driven, buscando destravar o poder contido na ciência de dados, em análises melhores e mais rápidas. Tudo isso passa por um bom gerenciamento de dados e informações. E introduzir um data catalog é mais um passo nesse caminho, principalmente pela facilidade e pelo poder de democratização e alfabetização de dados que concede aos profissionais da empresa.