Qualidade dos dados: por que é tão importante e como obtê-la?

 


qualidade.jpg

Pesquisador discute a importância da qualidade dos dados em iniciativas de trabalho data-driven e sugere um passo a passo estratégico para preservação dessa qualidade.

George Krasadakis, gerente de produto sênior na Microsoft, publicou um interessante artigo sobre a importância da qualidade dos dados em iniciativas de trabalho data-driven. Quem tem interesse em decisões baseadas em dados – automatizadas ou não – precisa de uma estratégia de preservação da qualidade dos dados utilizados.

 

Krasadakis usa uma experiência com mais de 80 projetos altamente focados em dados – em campos como armazenamento de dados, integração de dados, Business Intelligence, performance de conteúdo e modelos preditivos – para afirmar que, na maioria dos casos, a qualidade dos dados é um fator crítico para o sucesso do projeto. 

O que é qualidade dos dados?

 

Krasadakis define qualidade dos dados como “o nível de conformidade de um conjunto de dados com a normalidade contextual”. Em outras palavras, os dados precisam estar de acordo com uma determinada normalidade, um determinado padrão de regras definidas pelo usuário e/ou derivadas estatisticamente. Ela é contextual no sentido em que as regras refletem a lógica de determinados processos de negócios, conhecimento corporativo, condições ambientais, sociais ou outros. 

Para ilustrar com um exemplo prático, podemos imaginar um e-commerce que venda acessórios para pets. Dados sobre vendas, visitas no site, tempo gasto no site, taxa de abandono, são essenciais para a gestão desse negócio. Eles precisam ser entregues de maneira padronizada segundo o contexto do negócio ou a má qualidade dos dados seria extremamente prejudicial. Imagine se um erro de programação deixasse de exibir o total de vendas?

A importância da qualidade dos dados

 

Problemas com qualidade dos dados provocam confiança limitada nos funcionários de uma corporação. Isso coloca a perder toda a inteligência que os dados poderiam gerar, o que ocasiona desperdício de recursos e, até mesmo, más decisões – baseadas em critérios que não sejam objetivos.

Logo, não surpreende que iniciativas baseadas em dados fracassem quando há baixo engajamento de usuários importantes e stakeholders. Na maioria dos casos, esse envolvimento limitado é resultado da falta de confiança nos dados.


shahadat-shemul-BfrQnKBulYQ-unsplash.jpg

Problemas de qualidade de dados podem assumir muitas formas, tais como propriedades de objetos com valores inválidos ou ausentes, valores com formatos inesperados ou corrompidos, instâncias duplicadas e casos incompletos. Outros exemplos são referências ou unidade de medidas inconsistentes, URLs quebradas, pacotes de dados desaparecidos e propriedades mapeadas incorretamente.

 

As causas dos problemas com qualidade de dados são geralmente o resultado de:

  • Implementações ruins do software utilizado: bugs ou manuseio inadequado de casos específicos.

  • Problemas no nível do sistema: falhas em determinados processos.

  • Alterações nos formatos dos dados, o que impacta o armazenamento de dados.

Uma estratégia para qualidade dos dados

Geralmente, um projeto com uso intensivo de dados envolve fluxos complexos. Nesse cenário, o resultado ideal é um pipeline de processamento de dados de alto desempenho, que alimente e mantenha ao menos um data store.

 

Esse é um “ambiente de dados”, que permite modelos analíticos avançados, tomada de decisão em tempo real, extração de conhecimento e, possivelmente, aplicações de Inteligência Artificial.

 

Para garantir a qualidade dos dados ao longo desse processo, é preciso identificar as fontes dos dados, entendê-las e documentar o seguinte:

 

1. Tipos de dados contidos: por exemplo, registros do cliente, tráfego da web, documentos do usuário, atividade de um dispositivo conectado (em um contexto de Internet das Coisas).

 

2. Tipo de armazenamento: por exemplo, é um arquivo simples, um banco de dados relacional, um armazenamento de documentos ou um fluxo de eventos?

 

3. Prazos: por quanto tempo temos os dados?

 

4. Frequência e tipos de atualizações: você está recebendo deltas, eventos, atualizações, dados agregados? Tudo isso pode afetar significativamente o design do pipeline e a capacidade de identificar e lidar com problemas de qualidade de dados.

5. A fonte dos dados e os sistemas envolvidos: os dados são provenientes de outro sistema? É um feed contínuo de eventos ou um processo em lote extraído de outro sistema integrado? Existe entrada ou validação manual de dados?

 

6. Problemas e limitações de dados: é necessário revisar e conhecer antecipadamente possíveis problemas e limitações dos dados. Quando essas questões já são conhecidas, perde-se menos tempo na fase inicial de análise dos dados.

 

7. Modelos de dados: é fundamental identificar como são os modelos que descrevem a relação entre os dados. Por exemplo, um modelo Entity Relationship permite descrever formalmente as relações entre produtos, consumidores e vendas (para saber qual consumidor comprou qual produto é preciso que as relações entre esses dados sejam claras).

 

8. Stakeholders envolvidos: identificá-los é muito importante para interpretar questões e casos específicos, e também para validar o estado geral dos dados com aqueles que têm o conhecimento mais profundo sobre os dados, sobre os negócios e os processos relacionados.


chris-ried-ieic5Tq8YMk-unsplash.jpg

No caso do exemplo do e-commerce que sugerimos inicialmente, como poderíamos aplicar a estratégia de Krasadakis?

É preciso identificar os tipos de dados contidos. Por exemplo, cadastro do cliente, dados bancários e produtos consumidos. Esse dados podem ter um tipo de armazenamento de arquivo simples, como uma planilha de Excel.

Como precisaremos desses dados em uma visita futura, eles precisam estar disponíveis por um prazo indefinido. Porém, essa visita pode acontecer no próximo minuto, logo a frequência de atualização da base de dados precisa ser instantânea.

Os dados de cadastro do cliente estão armazenados no mesmo servidor do site, porém a fonte de dados sobre cobrança do cartão de crédito é o banco. O diálogo entre esses sistemas precisa ser garantido. Caso determinada bandeira de cartão costume dar algum problema, o conhecimento prévio dessa questão já ganha tempo para o analista de dados.

É necessário conhecer os modelos que descrevem a relação entre esses dados. Ou seja, é importante saber que determinado cartão de crédito pertence ao cadastro de João e não Maria. Por fim, é fundamental identificar os stakeholders envolvidos. Se João compra frequentemente no e-commerce pet, talvez o time de marketing queira atualizar o cadastro dele com um cupom promocional. E todo o ciclo se repete.

 

Na publicação original, George Krasadakis se aprofunda ainda mais em questões técnicas sobre a apuração da qualidade dos dados. É um processo minucioso que lembra a todos que empresas precisam ser orientadas por dados e que a qualidade deles é uma condição essencial nesse cenário.