Como fazer um projeto de Machine Learning bem-sucedido

 


O primeiro passo é estabelecer uma estrutura básica para entregar um projeto. Veja a seguir 6 etapas para facilitar esse processo

 

Ao contrário de nós, humanos, que muitas vezes repetimos nossos erros por vezes consecutivas, os modelos de Machine Learning (ML) melhoram gradualmente sua precisão. Costumamos dizer que no aprendizado de máquina não há um algoritmo único que funcione para todos os tipos de problemas. Em outras palavras, é necessário testar muitos algoritmos diferentes de aprendizado supervisionado para resolver um problema, enquanto se utiliza um conjunto de dados de espera para avaliar o desempenho e selecionar o vencedor. Em geral: diferentes problemas, diferentes respostas.

 

Atualmente, o ML é extremamente importante para as empresas, uma vez que oferece uma visão ampla e precisa de tendências de comportamento do cliente e de padrões operacionais de negócios, além de, em muitos casos, apoiar e auxiliar no desenvolvimento de novos produtos. 

Grandes organizações como Google, Facebook e Uber fazem uso do Machine Learning em seu dia a dia de forma muito avançada. E neste artigo você aprenderá como fazer um projeto de Machine Learning que realmente funcione, para também resolver problemas complexos a partir desta tecnologia. 

Como criar um modelo de Machine Learning eficiente e bem-sucedido

O primeiro passo é estabelecer uma estrutura básica para entregar um projeto de Machine Learning eficaz. Neste sentido, seguiremos algumas etapas pré-determinadas e pensadas pelo Data Science Manager, Shashank Kapadia, em artigo publicado pela Towards Data Science. São elas:

  • Iniciação do projeto

  • Exploração de dados

  • Processamento de dados

  • Desenvolvimento de modelo

  • Avaliação do modelo

  • Implantação do modelo

Falaremos um pouco sobre cada uma dessas etapas a seguir. Mas antes é preciso deixar claro: a jornada de qualquer projeto de aprendizado de máquina é longa e demanda tempo e esforço. E nem sempre os resultados esperados chegarão imediatamente. Portanto, é preciso estar ciente de que este é um investimento a médio e longo prazo, mas que será essencial para o crescimento do seu negócio. 

1. Iniciando o seu projeto

Em seu artigo, Shashank explica que a chave para entregar um bom projeto de Machine Learning é entender o problema, resolver este problema e produzir um resultado que atenda às suas necessidades. Então, é preciso ter noção do problema, dos dados envolvidos e do contexto. Além disso, é preciso ter em mente o objetivo da empresa, e se é possível atingi-lo utilizando técnicas de aprendizado de máquina.

Em geral, bons modelos de Machine Learning exigem dados suficientes e de boa qualidade disponíveis para análise. Se as informações necessárias não estiverem disponíveis, tudo fica mais difícil.

2. Hora de explorar seus dados

Explorar seus dados é examinar as informações disponíveis a fim de identificar padrões e entendê-los no contexto do problema em questão. Em geral, chamamos esta etapa de “verdadeira ciência de dados”, pois é quando o profissional vai “direto ao assunto”, observando fatos e números brutos sem qualquer noção preconcebida.

Essa etapa envolve examinar os dados disponíveis de diferentes maneiras, seja adicionando novas variáveis ou modificando as existentes. Essa é uma parte essencial do desenvolvimento do seu modelo de ML, pois é quando você conhece os dados disponíveis e decide quais perguntas deseja responder.

3. Processamento de dados e seleção de recursos

O pré-processamento de dados é o processo de transformar dados brutos em um formato adequado para análise e desenvolvimento de modelos Machine Learning. Essa é uma das etapas mais críticas na determinação do sucesso do seu modelo ML.

 

Atualmente, existem várias maneiras de pré-processar seus dados, seja removendo recursos irrelevantes, seja preenchendo valores ausentes, seja reduzindo o tamanho do conjunto de dados e do conjunto de recursos, entre outras formas. Também é possível transformar variáveis categóricas em variáveis numéricas, e vice e versa, bem como normalizar os pontos de dados existentes. Existem muitas formas de processar seus dados e selecionar os recursos disponíveis – basta entender a que faz mais sentido no seu modelo.

4. Desenvolvimento do modelo

Agora chegou a hora de construir o seu modelo de ML. Atualmente, existem diferentes algoritmos e métodos de código aberto disponíveis. Porém, muitas vezes o ideal é começar com o que é simples, para depois aperfeiçoar seu modelo de Machine Learning. 

 

Portanto, ao escolher o algoritmo ideal, Shashank afirma que você deve considerar:

  • o tamanho dos seus dados 

  • o tipo de problema que este algoritmo pode resolver (e se existem necessidades específicas de manipulação de dados)

  • e a disponibilidade de bibliotecas ou pacotes para este algoritmo

5. Avaliando seu modelo

Assim que seu modelo é treinado, é preciso avaliá-lo para entender como interpretar seus resultados. Isso deve ser feito antes da implementação do modelo. Um destes métodos de avaliação é a validação cruzada. Nesse caso, você treina o modelo de Machine Learning em alguns conjuntos de dados e, em seguida, testa seu desempenho em um conjunto de treinamento completamente diferente. 

Isso garante que seu conjunto de dados não esteja enviesado de alguma forma, e garante um melhor funcionamento do seu modelo na prática.

6. Implantação do Machine Learning

Enfim, agora que você tem tudo pronto, é chegada a hora de implantar o modelo em produção. Essa é uma das etapas essenciais no aprendizado de máquina, uma vez que permite que você use seus dados para aplicativos do mundo real. 

É possível implantar seu modelo de Machine Learning de forma manual ou automática, isso fica à sua escolha. Mas é preciso saber que a implantação manual é demorada e requer mais recursos do que a implantação automática. Além disso, ela depende muito de pessoas que podem não ser especialistas na criação de aplicativos de software. Portanto, considere bem este fator, pois é importante no resultado final.

Case: Michelle Lee e aprendizados como Vice-Presidente de Machine Learning da Amazon

Em artigo publicado pelo MIT, Michelle K. Lee, vice-presidente de aprendizado de máquina da Amazon Web Services, compartilha sua experiência a respeito da criação de modelos Machine Learning. De acordo com ela, existem diversos desafios no mercado em relação à criação destes modelos. Empresas que lutam para encontrar os melhores casos de uso para aprendizado de máquina, empresas que não têm acesso fácil a seus dados, empresas que carecem de talentos e conhecimentos técnicos necessários. 

A partir deste desafios diversos, vivenciados por ela durante sua carreira, em especial como vice-presidente de Machine Learning em uma das maiores empresas do mundo, Michelle resumiu seus aprendizados em alguns insights, que podem ser relevantes para quem que está prestes a iniciar a criação do seu modelo de Aprendizado de Máquina. 

Insights que Michelle reuniu ao longo desses anos:

1. Certifique-se de ter acesso fácil aos dados necessários, além de uma estratégia de dados abrangente

2. Selecione cuidadosamente os casos de uso de Machine Learning e defina suas métricas de sucesso

3. Certifique-se de ter especialistas técnicos e especialistas de domínio trabalhando lado a lado

4.  Garanta o patrocínio executivo e uma cultura de experimentação dentro da empresa

5. Avalie e resolva quaisquer lacunas de habilidades

6. Liberte sua equipe de trabalho pesado e desnecessário, e invista na infraestrutura certa

7. Planeje a longo prazo e não apresse os resultados: eles vão chegar.

Conclusão

Por fim, como já mencionamos, seu projeto de Machine Learning não estará 100% concluído. Modelos de aprendizado de máquina precisam ser atualizados, treinados e mantidos à medida que os dados mudam. 

Portanto, é melhor focar em um projeto pequeno, mas que gere resultados, do que implementar um modelo de ML todo de uma vez. Trabalhe em direção a objetivos mais amplos, converse constantemente com sua equipe e tenha em mente quais são seus objetivos.