O uso de Dados sintéticos para melhorar modelos de Machine Learning

Modelos de Machine Learning treinados com o uso de dados sintéticos podem ser mais precisos do que modelos tradicionais – além de eliminar questões éticas, de privacidade e de direitos autorais

 

Ensinar uma máquina a reconhecer ações humanas tem muitas vantagens e aplicações dentro de qualquer negócio. Por exemplo, é possível a partir de modelos de Machine Learning detectar de forma automática acidentes de trabalho, ou mesmo permitir que um robô doméstico possa interpretar os gestos de seu usuário. 

Para que isso seja possível, pesquisadores treinam Modelos de Aprendizado de Máquina a partir de vários conjuntos de dados, obtidos a partir de videoclipes que mostram humanos realizando ações. Entretanto, além de essa ser uma abordagem que existe alto investimento financeiro, é extremamente trabalhoso reunir milhões ou em alguns casos os bilhões de vídeos necessários para alimentar um modelo de ML. Além disso, muitas vezes os vídeos em questão esbarram em problemas de confidencialidade, por possuírem informações privadas ou violarem alguma lei de direitos autorais e proteção de dados.

Nesse sentido, a solução encontrada por diversos profissionais tem sido a aplicação de conjuntos de dados sintéticos. Ou seja, dados produzidos de forma artificial, por um computador que faz uso de modelos 3D para produzir rapidamente os clipes necessários. Tudo isso sem os possíveis problemas éticos ou de direitos autorais. 

A pergunta é: os dados sintéticos realmente funcionam? Eles são tão bons quanto os dados reais? 

 

Dados sintéticos x dados reais: existe diferença?

Diante das problemáticas a respeito da coleta de dados reais para modelos de Machine Learning, muitos pesquisadores acreditam que a solução esteja no uso de dados sintéticos. O problema é que muitos profissionais têm dúvidas a respeito da confiabilidade e do desempenho desses modelos, treinados a partir de dados sintéticos, produzidos. 

Pensando nisso, uma equipe de pesquisadores do MIT, do MIT-IBM Watson AI Lab e da Boston University procurou responder esses questionamentos. Para isso, construíram um conjunto de dados sintéticos de 150.000 videoclipes, a fim de capturar uma ampla gama de ações humanas, que seriam utilizados para treinar modelos de aprendizado de máquina. Em seguida, os pesquisadores mostraram a esses modelos seis conjuntos de dados de vídeos do “mundo real”, e compararam o desempenho de ambos os modelos.

O resultado foi surpreendente. De fato, os pesquisadores descobriram que os modelos treinados sinteticamente tiveram um desempenho ainda melhor do que os modelos treinados com dados reais. Com isso, tornou-se mais provável a tese de que modelos criados a partir de dados sintéticos poderiam, na verdade, alcançar uma maior precisão em tarefas do mundo real. 

Além disso, esses resultados podem ajudar os cientistas a identificar quais aplicativos de aprendizado de máquina podem ser mais adequados para treinamento com dados sintéticos, em um esforço para mitigar algumas das preocupações éticas, de privacidade e direitos autorais do uso de conjuntos de dados reais.

De acordo com Rogério Feris, gerente do MIT-IMB, Watson AI Lab, e coautor de um artigo detalhando a pesquisa, o objetivo era substituir o pré-treinamento de dados reais pelo pré-treinamento de dados sintéticos, diminuindo os custos da organização e criando a oportunidade de gerar um número ilimitado de imagens ou vídeos. O artigo de Feris foi redigido com autoria principal de Yo-whan Kim, da diretora do MIT Aude Oliva, e de outros sete pesquisadores. 

 

Como funcionam os dados sintéticos? 

Antes de avançarmos na discussão, vale explicar com mais clareza do que se tratam os dados sintéticos. Como já mencionamos, trata-se de dados criados de forma artificial, geralmente com a ajuda de algoritmos. Eles são criados para suprir a ausência de um grande volume de dados reais e podem ser usados, por exemplo, para validação de modelos e protótipos, ou até mesmo para o treinamento de tecnologias de inteligência artificial, um dos direcionamentos do estudo feito pelo MIT.

O uso de dados sintéticos permite às empresas atender a necessidades ou condições especiais de teste e análise, por exemplo, que nem sempre podem ser feitas a partir dos dados existentes. 

Além disso, o uso de dados sintéticos permite a uma infinidade de negócios continuar desenvolvendo produtos e soluções novas quando os dados necessários para isso não estão disponíveis. É uma solução para o problema da escassez de dados, e pesquisas recentes já mostraram que esse tipo de dado é tão eficiente ou até mais eficiente para treinar um modelo de IA do que dados baseados em eventos reais. 

 

Case do MIT e o processo de criação de um conjunto de dados sintéticos

A pergunta que fica é de que forma criar esses conjuntos de dados sintéticos. De acordo com a pesquisa do MIT, o primeiro passo foi compilar um novo conjunto de dados, utilizando como base três conjuntos de dados disponíveis publicamente de videoclipes sintéticos que capturavam ações humanas. Esse conjunto de dados, chamado Synthetic Action Pre-training and Transfer (SynAPT), possuía um total de 150 categorias de ação, com 1.000 videoclipes cada.

Em seguida, foi necessário selecionar o maior número possível de categorias de ação, como pessoas acenando para outras pessoas, ou caindo no chão, por exemplo, a depender da disponibilidade dos clipes. Com isso preparado, os pesquisadores usaram os clipes para pré-treinar três modelos de Machine Learning, pensado para reconhecer ações humanas. 

Como se sabe, o pré-treinamento envolve treinar um modelo para uma tarefa para dar a ele uma vantagem inicial para aprender outras tarefas. Mais ou menos parecido com a forma com que as pessoas aprendem: utilizando um conhecimento antigo para aprender algo novo.

Nesse sentido, o modelo de ML pré-treinado pode usar os parâmetros que já aprendeu para ajudá-lo a aprender uma nova tarefa, com um novo conjunto de dados, de maneira muito mais rápida e eficaz.

Por fim, os pesquisadores puderam testar os modelos pré-treinados utilizando seis conjuntos de dados de videoclipes reais, cada um capturando classes de ações diferentes daquelas dos dados de treinamento. O resultado foi o mesmo de antes: em quatro dos seis conjuntos de dados, os três modelos sintéticos superaram os modelos treinados com videoclipes reais. 

É interessante observar que a precisão dos modelos de ML com conjuntos de dados sintéticos obtiveram uma precisão maior para conjuntos de dados que continham videoclipes com “baixo viés de objeto de cena”. Ou seja: cenas em que o modelo não foi capaz de reconhecer a ação apenas olhando para o fundo ou outros objetos na cena, sendo necessário concentrar-se na ação como um todo. 

De acordo com Feris, em vídeos com baixo viés de objeto de cena, a dinâmica temporal das ações é mais importante do que a aparência dos objetos ou do plano de fundo. E por isso os dados sintéticos acabam tendo um resultado melhor. 

 

Conclusão

Agora, com base nos resultados obtidos até aqui, a ideia dos pesquisadores é incluir ainda mais classes de ação, além de plataformas de vídeo sintéticas adicionais em trabalhos futuros. Eventualmente, espera-se também criar um catálogo de modelos pré-treinados a partir do uso de dados sintéticos, para analisar os possíveis resultados.

Em outras palavras, os pesquisadores do MIT desejam construir modelos com desempenho semelhante ou até melhor do que os existentes até então, mas a partir do uso de dados sintéticos, abandonando problemas com questões de segurança e privacidade de dados.

Além disso, agora que os pesquisadores conseguiram demonstrar esse potencial de uso para dados sintéticos, a ideia é que outros profissionais aproveitem este trabalho e motivem-se para criar estudos nesta direção. 

No futuro, pode ser que o uso de dados sintéticos cresça ainda mais no meio da Ciência de Dados e dentro das organizações, e problemas envolvendo questões éticas, privacidade e segurança de dados estejam cada vez menos presentes.

Aliás, neste artigo da Ilumeo, você confere como a sua empresa pode atualizar-se sobre o assunto e se beneficiar do uso de dados sintéticos!