Dados Sintéticos: o que são e como podem ser úteis?

 


Eles habilitam negócios a continuar desenvolvendo produtos e soluções inovadores quando os dados reais necessários não estão disponíveis

 

Apesar de os dados estarem entre os ativos mais buscados pelas empresas atualmente, nem sempre o acesso a eles é algo tão simples. É por isso que muitos estão buscando “produzir” seus próprios dados, por meio de algo que chamamos de Synthetic Data, ou Dados Sintéticos.

Na prática, os dados sintéticos são informações criadas a partir de simulações ou algoritmos, tornando-se uma alternativa aos dados “reais”. Em outras palavras, é como se, em vez de coletar dados no mundo real, você criasse o seu próprio mundo, e analisasse as informações obtidas dentro dele. Mas, como falando assim parece algo absolutamente sem valor no mundo real, vamos entender exatamente como funcionam os dados sintéticos e porque em determinados casos eles são sim alternativas com valor prático muito relevante.

O que são – e como funcionam – os dados sintéticos?

 

Os dados sintéticos, como o nome sugere, são dados criados de forma artificial, geralmente com a ajuda de algoritmos. Eles são criados para suprir a ausência de um grande volume de dados reais e podem ser usados, por exemplo, para validação de modelos e protótipos, ou até mesmo para o treinamento de tecnologias de inteligência artificial. 

 

Atualmente, o uso de dados sintéticos permite às empresas atender a necessidades ou condições especiais de teste e análise, que nem sempre podem ser feitas a partir dos dados existentes. Alguns exemplos de situações em que os dados sintéticos podem ser bastante úteis são:

  • Quando os requisitos de privacidade limitam a disponibilidade de dados ou a forma como eles podem ser usados;

  • Quando não existem dados disponíveis para testar um produto a ser lançado;

  • Se os dados de treinamento necessários para algoritmos de machine learning são muito caros para serem gerados no “mundo real”.

 

Em geral, diferentes setores podem se beneficiar dos dados sintéticos, entre eles empresas de serviços financeiros, assistência médica, segurança, mídias sociais, e até robótica. Isso porque dados sintéticos permitem a uma infinidade de negócios continuar desenvolvendo produtos e soluções novas quando os dados necessários para isso não estão disponíveis. É uma solução para o problema da escassez de dados, e o combustível que pode alavancar ainda mais a análise de dados dentro das organizações.

 

Nesse sentido, os dados sintéticos são uma espécie de ampliação de dados usando técnicas que mesclam dados já existentes com dados sintéticos recém-criados. E apesar de serem artificiais, eles são criados de modo a refletirem os dados reais do ponto de vista estatístico. Pesquisas recentes mostram que esse tipo de dado é tão eficiente ou até mais eficiente para treinar um modelo de IA do que dados baseados em eventos reais. Mas será mesmo?

 

Comparando o desempenho de dados sintéticos com dados reais

Para entender melhor a diferença entre ambos os dados, nada melhor do que comparar seu desempenho. Machine learning é um dos casos de uso mais comuns para dados atualmente, portanto, cientistas do MIT decidiram medir se os modelos de aprendizado de máquina a partir de dados sintéticos poderiam funcionar tão bem quanto os modelos construídos a partir de dados reais.

 

Nessa toada, o MIT realizou um estudo em 2017, em que os cientistas de dados foram divididos em dois grupos: um usando dados sintéticos e outro usando dados reais. O resultado? 70% do grupo de teste de dados sintéticos foi capaz de produzir resultados equivalentes ao grupo usando dados reais. Talvez você ainda não tenha percebido a relevância disso, mas isso significa que o uso de dados sintéticos pode ser tão eficiente quanto o uso de dados reais, e o melhor: sem comprometer a privacidade dos usuários, uma vez que estes dados são criados via algoritmos. E os benefícios não param por aí.

 

Benefícios dos dados sintéticos: como eles realmente impactam o seu negócio

Até aqui, pode-se perceber que a capacidade de gerar dados que imitam a realidade e de maneira ilimitada pode ser uma virada de chave para a Ciência de Dados. Contudo, é importante lembrar que qualquer modelo sintético derivado de dados só pode replicar propriedades específicas dos dados, o que significa que eles só poderão simular tendências gerais. O específico é mais complexo, e geralmente vai precisar de uma testagem voltada para os usuários.

 

Entretanto, os dados sintéticos ainda são extremamente vantajosos, podendo trazer benefícios diversos para o dia a dia das empresas. Entre eles:

  • Superar restrições de uso de dados reais. Afinal, os dados reais podem ter restrições de uso devido a regras de privacidade ou outros regulamentos, especialmente com as leis de proteção de dados atualmente. Portanto, dados sintéticos podem replicar todas as propriedades estatísticas importantes de dados reais sem expor dados de seus usuários, eliminando assim o problema.

  • Criar dados para simular condições ainda não descobertas. Onde dados reais não existem, dados sintéticos são a única solução.

  • Estar imune a alguns problemas estatísticos comuns. Por exemplo: falta de resposta, padrões de salto e outras restrições lógicas que podem atrapalhar a análise de dados.

  • Concentrar-se nas relações. Dados sintéticos tem o objetivo de preservar os relacionamentos multivariados entre as variáveis, em vez de apenas estatísticas específicas. Por isso, podem ser uma alternativa mais vantajosa, dependendo do seu modelo de negócio.

 

Enfim, tudo isso apenas demonstra que o uso de dados sintéticos é uma tendência que deve estar cada vez mais presente nas equipes de dados, e pode sim oferecer soluções simples para problemas até então complexos – como a questão da privacidade, por exemplo.

 

Synthetic Data e exemplos de uso nos dias atuais

 

O primeiro caso de uso de dados sintéticos diz respeito a um assunto amplamente comentado e ainda um pouco polêmico: os carros autônomos.

 

Esse é um ótimo exemplo, pois demonstra exatamente um dos usos dos dados sintéticos. Afinal, em simulações de dados autônomos, aprender “errando” não é uma boa alternativa. Não é possível colocar a vida de pessoas em risco para fazer o teste desses veículos e coletar dados. Portanto, os dados sintéticos são a solução perfeita.

 

Outro problema é que experimentos na vida real são caros. A Waymo literalmente está construindo uma cidade simulada para realizar seus testes de direção autônoma. Mas nem todas as empresas podem arcar com um custo assim.

 

O Google, por exemplo, pensando em minimizar os custos de geração de dados, conta hoje com simulações que criam milhões de horas de dados sintéticos de direção, com o objetivo de treinar seus algoritmos. Uma solução que fez muito sentido para a gigante de tecnologia, mas também pode ser aplicada (nas devidas proporções) nas necessidades de qualquer empresa.

Outro caso de uso de dados sintéticos é no campo do processamento de linguagem natural. A Amazon faz uso de Synthetic Data para o sistema de compreensão de linguagem natural da Alexa, sua Inteligência Artificial. Com isso, consegue fornecer uma base sólida de informações para treinar novos idiomas sem interação com seu cliente, por exemplo.

 

A instituição financeira American Express é outro exemplo de uso. Recentemente, a empresa passou a utilizar dados financeiros sintéticos para melhorar seu sistema de detecção de fraudes. Até agora, as equipes já conseguiram fazer uso de Synthetic Data para auxiliar no treinamento dos modelos de detecção e vem obtendo resultados positivos.