AutoML e NoCode: é possível automatizar Machine Learning?

 


ruivacodando.png

O rumo de Data Science no mundo pode ser mudado com ferramentas que democratizam o desenvolvimento de tecnologias, permitindo às áreas de negócio protagonizar projetos de dados sem ter uma enorme expertise técnica, eliminando a necessidade de programar milhares de linhas de código

 

*por Rafael Delgado, Executivo de Novos Negócios da Ilumeo

A construção de modelos em Machine Learning pode ser uma tarefa árdua e demorada, e dependendo do contexto, é uma atividade que fica restrita a um número muito pequeno de pessoas. Esses profissionais muitas vezes precisam dominar diferentes aspectos técnicos e de negócios, embora ainda grande parte do seu trabalho fique restrito a atividades repetitivas e braçais.

Quanto a parte técnica, precisam ser exímios na descoberta dos dados, extração, preparação até a seleção do algoritmo, construção do código e produção do modelo. Além da exigência de um profundo conhecimento dos problemas e idiossincrasias do negócio.

Encontrar profissionais como esses, os chamados unicórnios, não é das tarefas de recursos humanos mais simples. Colocar a esperança de uma cultura mais data-driven em um grupo de seleto de pessoas, muito menos. Até porque, o ideal é que se tenha uma cultura analítica que perpassa toda a organização.

Por essa razão, um caminho que tem sido construído para tirar todo o peso das costas dos cientistas de dados – eliminando também tarefas repetitivas, e democratizando o acesso a ferramentas analíticas aos não-cientistas de dados – é a automatização via ferramentas de no-code e AutoML (Automated Machine Learning).

Essas ferramentas permitem que as áreas de negócio possam protagonizar projetos de dados sem ter uma enorme expertise técnica – seja em programação, estatística ou outras skills. Uma vez que eliminam a necessidade de programar milhares de linhas de código e de ter que compreender diferenças sutis dentro das operações estatísticas.

Nesse artigo vamos abordar o que são essas iniciativas e como AutoML pode mudar o rumo da Data Science no mundo.

O que é?

No paper “Automated Machine Learning in Practice: State of the Art and Recent Results”, o pesquisador Lukas Tuggener diz que AutoML é uma área que visa desenvolver métodos que ajudam a construir modelos de Machine Learning sem (ou com pouquíssima) intervenção humana.

Embora ainda não tenhamos uma automação completa de todo o Machine Learning Flow (da formulação do problema até aplicação do modelo nos sistemas gerenciais), existem etapas do processo que tem sido automatizadas com razoável sucesso. A ideia é liberar experts de tarefas repetitivas, para que se dediquem a processos mais criativos e investigativos – além de tornar a área mais acessível aos não-experts, gerando no chamado “early-stage” do trabalho.

Por exemplo, com AutoML é possível rodar diferentes modelos nos dados de inputs e garantir feedbacks que ajudam a saber quais são os possíveis melhores algoritmos; se os dados de input tem poder preditivo adequado (por exemplo se múltiplos modelos não performam significativamente melhor que o baseline); e qual o possível melhor caminho para construção do modelo final.

Além de outras várias aplicações para experts, como o artigo enumera em: Feature Engineering, Otimização de Hyperparâmetros e Pipelines, Architecture Search e Meta-Learning.

Enquanto AutoML é uma construção focada em Data Science, No-Code se refere a todo um pacote de ferramentas que vem sendo criadas para democratizar o desenvolvimento de tecnologias como um todo: de criação de aplicativos mobile à concepção de modelos robustos de machine learning.

Como o próprio nome sugere, são ferramentas que não exigem do usuário a habilidade de programação para desenvolver aplicações. Em soluções como essa o usuário consegue rapidamente subir um banco de dados, escolher o tipo de problema que pretende resolver, a variável que quer prever e, em poucos minutos (por vezes, segundos), tem-se o treino de uma série de modelos possíveis direto no navegador. Assim, permite-se a rápida construção de protótipos, comparação de performance entre algoritmos e simuladores preditivos com base nesses algoritmos.  

Principais benefícios

Em resumo, existem diversos benefícios de se trabalhar com AutoML nas empresas, como:

  • Aumento de produtividade dos times de dados e da acurácia dos modelos;

  • Incorporação do conhecimento de negócio a projetos de dados por meio da democratização de Machine Learning;

  • Desenvolvimento de uma cultura e engajamento analítico orientado por dados e por hipóteses, na medida em que rapidamente qualquer um pode prototipar modelos para testar caminhos de análise;

  • Data Sponsorship: executivos não-experts passam a poder experimentar a construção de modelos e podem se tornar grandes embaixadores de projetos de dados na organização.

Isso fora todos os outros benefícios associados aos projetos de dados: aumento de receita, controle de riscos e redução de custos.


Tela do RapidMiner Studio, plataforma de Ciência de Dados de ponta a ponta.

Tela do RapidMiner Studio, plataforma de Ciência de Dados de ponta a ponta.

AutoML vai tornar o trabalho dos experts obsoleto?

Muito pelo contrário, AutoML é uma abordagem que busca, acima de tudo, facilitar a vida de quem trabalha com Data Science. E apesar de AutoML ser um caminho com muito potencial, Data Science nunca foi sobre apertar botões. Afinal, tendo “Science” no nome, pressupõe-se que essa é uma disciplina que requer um tipo de inteligência que não pode ser automatizada. Um exemplo. Antes de construir modelos para prever o comportamento humano, é preciso contar sempre com uma força-tarefa multidisciplinar e complementar que estuda esse campo. Isso vale para qualquer outro domínio, como Marketing e Recursos Humanos.

Nesse sentido, AutoML é uma boa forma de automatizar o que precisa ser automatizado, mas não é uma boa solução para automatizar aquilo que não deve ser automatizado.

Foi pensando em fazer parte desse movimento de inovação em Data Science que a ILUMEO se tornou uma das parceiras Brasileiras do Rapidminer, um stack de ferramentas end-to-end para empresas que precisam do back-bone tecnológico para executar projetos complexos de dados.