Conheça o approach criado pelo fundador da Kaggle, Jeremy Howard, e suas vantagens para gerar resultados acionáveis a partir dos dados
À medida que os produtos de dados vão ficando mais complexos, uma série de complicações podem surgir, como perder o problema real a ser resolvido. Neste cenário, existe uma abordagem chamada Drivetrain, que busca unir o melhor da ciência de dados às necessidades reais de negócio, usando dados para produzir resultados acionáveis.
O termo foi apresentado pela primeira vez em 2012, por Jeremy Howard, ex-presidente e cientista-chefe da Kaggle. O Drivetrain approach, também chamado de Sistema de Transmissão, é inspirado nos sistemas de veículos autônomos, por isso a derivação do nome.
A abordagem de quatro etapas
O Drivetrain é um processo composto por quatro etapas e oferece uma maneira sistemática de produzir percepções acionáveis:
-
Definir objetivos: que resultado estou tentando alcançar?
-
Alavancas: quais inputs podemos controlar para influenciar os resultados?
-
Dados: quais dados podemos coletar?
-
Modelos: como as alavancas influenciam os objetivos?
Nesta abordagem, se define primeiro o objetivo antes de passar para as etapas seguintes. Exemplos de objetivos podem ser:
-
Mecanismos de pesquisa (Google): mostram o resultado de pesquisa mais relevante para aquilo que o usuário está buscando;
-
Veículos autônomos: um carro para dirigir com segurança do ponto A ao ponto B sem intervenção humana;
-
Seguradora: defina um preço que maximize o valor presente líquido do lucro de um novo cliente ao longo do tempo;
Depois de definir o objetivo, a etapa 2 é especificar quais entradas do sistema podemos controlar, as alavancas que podemos usar para influenciar o resultado final. O passo 3 é considerar quais novos dados são necessários para produzir o resultado desejado e satisfazer o objetivo. O conceito de “novos” dados (ou, pelo menos, dados que o sistema ou a equipe do projeto não viram) é importante para realmente estabelecer um vínculo causal entre a entrada e os resultados.
A Etapa 4 consiste em uma série de subetapas:
-
Modelador: modelo estatístico das relações causais nos dados causais imparciais;
-
Simulador: movendo as alavancas em intervalos mais amplos, podemos começar a construir um panorama dos efeitos dessas alavancas no resultado;
-
Otimizador: Usado em conjunto com o simulador, podemos usar diferentes modelos/algoritmos de otimização para pesquisar o conjunto de entradas (valores de saída) que irão maximizar (ou minimizar) o resultado desejado.
Um exemplo prático
Howard considera que a otimização para um resultado acionável sobre os modelos preditivos corretos pode ser a decisão estratégica mais importante de uma empresa. Um caso real onde ele implantou essa abordagem foi em uma seguradora.
Geralmente elas estabelecem um preço com base em uma combinação de suposições e estudos de mercado, mas com a abordagem Drivetrain, essa modelagem de preço pode ser bastante otimizada.
Primeiro define-se o objetivo: estabelecer um preço que maximize o valor líquido do lucro de um novo cliente em um horizonte de tempo plurianual, sujeito a certas restrições, como manter a participação no mercado.
Algumas alavancas que a seguradora pode controlar são: que preço cobrar de cada cliente, que tipos de acidentes cobrir, quanto gastar em marketing e atendimento ao cliente e como reagir às decisões de preços de seus concorrentes. Também é possível considerar fatores mais externos, como estratégias dos concorrentes, condições macroeconômicas, desastres naturais e “aderência” do cliente.
Neste trabalho, a empresa de Howard considerou quais dados adicionais precisariam para prever a reação de um cliente às mudanças no preço. Foi necessário construir esse conjunto de dados alterando aleatoriamente os preços de centenas de milhares de apólices ao longo de vários meses. Finalmente, se começou a projetar os modelos que poderiam ser usados para otimizar o lucro da seguradora.
O primeiro componente do Modelador foi um modelo de elasticidade de preço. O segundo componente do Modelador relacionava o preço ao lucro da seguradora, condicionado ao cliente aceitar esse preço. Também foram construídos modelos para retenção de clientes. Esses modelos previam se os clientes renovariam suas apólices em um ano, permitindo mudanças no preço e a disposição de migrar para um concorrente. Esses modelos adicionais permitem que os modelos anuais sejam combinados para prever o lucro de um novo cliente nos próximos cinco anos.
Este novo conjunto de modelos não é uma resposta final porque identifica apenas o resultado para um determinado conjunto de entradas. A próxima “máquina” nessa linha de montagem é um Simulador, que permite fazer as perguntas “e se” para ver como as alavancas afetam a distribuição do resultado final.
A curva de lucro esperada é apenas uma fatia da superfície dos resultados possíveis. Para construir toda a superfície, o Simulador executa os modelos em uma ampla gama de entradas. A operadora pode ajustar as alavancas de entrada para responder a perguntas específicas como: “O que acontecerá se nossa empresa oferecer ao cliente um preço promocional baixo no primeiro ano, mas aumentar os prêmios no segundo ano?”
Eles também podem explorar como a distribuição de lucro é moldada por insumos fora do controle da seguradora: “E se a economia quebrar e o cliente perder o emprego? E se uma enchente de 100 anos atingir sua casa? Se um novo concorrente entrar no mercado e nossa empresa não reagir, qual será o impacto em nossos resultados financeiros?”.
Como a simulação está em um nível por apólice, a seguradora pode visualizar o impacto de um determinado conjunto de mudanças de preço na receita, participação de mercado e outras métricas ao longo do tempo.
A abordagem Drivetrain fornece uma boa estrutura para extrair percepções acionáveis. Mas é sempre importante lembrar que não é a única e nem a melhor: depende da realidade de cada negócio, sendo uma sugestão e um exemplo para testar. A análise de dados e a ciência de dados não são receitas de bolo, são experimentais, e também podem exigir várias iterações até se chegar a um modelo satisfatório.