O rumo de Data Science no mundo pode ser mudado com ferramentas que democratizam o desenvolvimento de tecnologias, permitindo às áreas de negócio protagonizar projetos de dados sem ter uma enorme expertise técnica, eliminando a necessidade de programar milhares de linhas de código
*por Rafael Delgado, Executivo de Novos Negócios da Ilumeo
A construção de modelos em Machine Learning pode ser uma tarefa árdua e demorada, e dependendo do contexto, é uma atividade que fica restrita a um número muito pequeno de pessoas. Esses profissionais muitas vezes precisam dominar diferentes aspectos técnicos e de negócios, embora ainda grande parte do seu trabalho fique restrito a atividades repetitivas e braçais.
Quanto a parte técnica, precisam ser exímios na descoberta dos dados, extração, preparação até a seleção do algoritmo, construção do código e produção do modelo. Além da exigência de um profundo conhecimento dos problemas e idiossincrasias do negócio.
Encontrar profissionais como esses, os chamados unicórnios, não é das tarefas de recursos humanos mais simples. Colocar a esperança de uma cultura mais data-driven em um grupo de seleto de pessoas, muito menos. Até porque, o ideal é que se tenha uma cultura analítica que perpassa toda a organização.
Por essa razão, um caminho que tem sido construído para tirar todo o peso das costas dos cientistas de dados – eliminando também tarefas repetitivas, e democratizando o acesso a ferramentas analíticas aos não-cientistas de dados – é a automatização via ferramentas de no-code e AutoML (Automated Machine Learning).
Essas ferramentas permitem que as áreas de negócio possam protagonizar projetos de dados sem ter uma enorme expertise técnica – seja em programação, estatística ou outras skills. Uma vez que eliminam a necessidade de programar milhares de linhas de código e de ter que compreender diferenças sutis dentro das operações estatísticas.
Nesse artigo vamos abordar o que são essas iniciativas e como AutoML pode mudar o rumo da Data Science no mundo.
O que é?
No paper “Automated Machine Learning in Practice: State of the Art and Recent Results”, o pesquisador Lukas Tuggener diz que AutoML é uma área que visa desenvolver métodos que ajudam a construir modelos de Machine Learning sem (ou com pouquíssima) intervenção humana.
Embora ainda não tenhamos uma automação completa de todo o Machine Learning Flow (da formulação do problema até aplicação do modelo nos sistemas gerenciais), existem etapas do processo que tem sido automatizadas com razoável sucesso. A ideia é liberar experts de tarefas repetitivas, para que se dediquem a processos mais criativos e investigativos – além de tornar a área mais acessível aos não-experts, gerando no chamado “early-stage” do trabalho.
Por exemplo, com AutoML é possível rodar diferentes modelos nos dados de inputs e garantir feedbacks que ajudam a saber quais são os possíveis melhores algoritmos; se os dados de input tem poder preditivo adequado (por exemplo se múltiplos modelos não performam significativamente melhor que o baseline); e qual o possível melhor caminho para construção do modelo final.
Além de outras várias aplicações para experts, como o artigo enumera em: Feature Engineering, Otimização de Hyperparâmetros e Pipelines, Architecture Search e Meta-Learning.
Enquanto AutoML é uma construção focada em Data Science, No-Code se refere a todo um pacote de ferramentas que vem sendo criadas para democratizar o desenvolvimento de tecnologias como um todo: de criação de aplicativos mobile à concepção de modelos robustos de machine learning.
Como o próprio nome sugere, são ferramentas que não exigem do usuário a habilidade de programação para desenvolver aplicações. Em soluções como essa o usuário consegue rapidamente subir um banco de dados, escolher o tipo de problema que pretende resolver, a variável que quer prever e, em poucos minutos (por vezes, segundos), tem-se o treino de uma série de modelos possíveis direto no navegador. Assim, permite-se a rápida construção de protótipos, comparação de performance entre algoritmos e simuladores preditivos com base nesses algoritmos.
Principais benefícios
Em resumo, existem diversos benefícios de se trabalhar com AutoML nas empresas, como:
-
Aumento de produtividade dos times de dados e da acurácia dos modelos;
-
Incorporação do conhecimento de negócio a projetos de dados por meio da democratização de Machine Learning;
-
Desenvolvimento de uma cultura e engajamento analítico orientado por dados e por hipóteses, na medida em que rapidamente qualquer um pode prototipar modelos para testar caminhos de análise;
-
Data Sponsorship: executivos não-experts passam a poder experimentar a construção de modelos e podem se tornar grandes embaixadores de projetos de dados na organização.
Isso fora todos os outros benefícios associados aos projetos de dados: aumento de receita, controle de riscos e redução de custos.
AutoML vai tornar o trabalho dos experts obsoleto?
Muito pelo contrário, AutoML é uma abordagem que busca, acima de tudo, facilitar a vida de quem trabalha com Data Science. E apesar de AutoML ser um caminho com muito potencial, Data Science nunca foi sobre apertar botões. Afinal, tendo “Science” no nome, pressupõe-se que essa é uma disciplina que requer um tipo de inteligência que não pode ser automatizada. Um exemplo. Antes de construir modelos para prever o comportamento humano, é preciso contar sempre com uma força-tarefa multidisciplinar e complementar que estuda esse campo. Isso vale para qualquer outro domínio, como Marketing e Recursos Humanos.
Nesse sentido, AutoML é uma boa forma de automatizar o que precisa ser automatizado, mas não é uma boa solução para automatizar aquilo que não deve ser automatizado.
Foi pensando em fazer parte desse movimento de inovação em Data Science que a ILUMEO se tornou uma das parceiras Brasileiras do Rapidminer, um stack de ferramentas end-to-end para empresas que precisam do back-bone tecnológico para executar projetos complexos de dados.