Testes A/B são uma abordagem extremamente útil para tomar melhores decisões nos negócios – mas nem sempre eles funcionam como deveriam
O teste A/B é uma das habilidades mais importantes para os profissionais de dados, e para a Ciência de Dados como um todo. Basicamente, esses testes, também conhecidos como testes de divisão, são um processo de experimentação aleatória, em que duas ou mais versões de uma variável são exibidas a diferentes segmentos de usuários ao mesmo tempo. Isso ajuda a entender qual das versões tem um maior impacto ou é mais promissora em relação ao aumento das métricas de negócios.
Atualmente, todas as grandes empresas de tecnologia usam esse método para experimentação em escala. Contudo, ainda existem algumas limitações do teste A/B, além de métodos que podem ir muito além em termos de resultados, e nem sempre são conhecidos pelas equipes de dados.
Neste texto, explicaremos um pouco mais sobre a execução de testes A/B dentro da Ciência de Dados, e quais são as soluções possíveis quando os testes A/B não são exatamente o melhor método a ser executado.
O que são os testes A/B e em que casos eles realmente funcionam
Então, vamos começar falando um pouco sobre a aplicação de testes A/B no dia a dia das empresas, partindo em seguida para as principais limitações deste tipo de abordagem.
O primeiro ponto é que a popularidade dos testes A/B aumentou significativamente quando as empresas perceberam que o ambiente online é adequado para ajudar gerentes e profissionais de marketing a responder perguntas sobre quais elementos geram mais cliques, vendas ou inscrições. Com isso, é possível utilizar testes A/B para avaliar qualquer coisa. Desde o melhor título para um artigo, a melhor foto para um produto que está sendo comercializado, a cor de plano de fundo mais atraente, entre outras tantas coisas…
Além disso, quando falamos em Marketing e Publicidade, as opções são variadas. Você pode testar diferentes títulos de e-mail marketing, ou conferir qual anúncio é mais impactante na opinião de seus usuários. As possibilidades são amplas. Porém, apesar disso, também existem limitações em relação a este método de testagem. E elas acontecem por diversos motivos. É comum, por exemplo, que muitos gestores parem de usar os testes antes de eles completarem seu percurso natural. Isso acontece pois a maioria das empresas está em busca de decisões rápidas, mas, por conta da randomização, é possível que os resultados acabem sendo diferentes do que seriam se tivessem mais tempo de testagem.
Outro erro é o uso de um grande número de métricas, ou não realizar testes A/B o suficiente. Se você testar algo uma vez e o resultado for o esperado, existem grandes chances de você parar os testes por aí e aceitar isso como realidade.
Limitações inerentes à este método de experimentação
Certo, essas são limitações referentes ao uso humano desta técnica. Porém, ainda existem limitações inerentes à natureza do teste A/B. A principal delas é que esse tipo de teste não é capaz de prover uma explicação sobre os resultados obtidos. Assim, não basta entender que determinada versão A é melhor do que a B. É preciso saber analisar estes resultados e tirar um insight disso. Mas nem sempre isso é feito adequadamente.
Outra limitação central dos testes A/B é a capacidade limitada de controle das variáveis envolvidas. No caso do tamanho de um botão, por exemplo, você consegue entender que somente um elemento foi alterado e está sendo avaliado. Mas, quando o objeto é uma mensagem de texto, isso fica mais difícil, pois existem outras variáveis sendo trabalhadas ali.
Por fim, testes A/B podem ser automatizados e monitorados por alguém sem muito conhecimento técnico, o que torna a ferramenta praticamente inútil. É preciso que esse trabalho seja realizado por um especialista em dados, e supervisionado por pessoas que também entendam do assunto.
Como ir além do teste A/B? Conheça outros métodos
Agora que entendemos melhor sobre os testes A/B e suas limitações, é hora de conhecer alguns métodos alternativos a esse, mas que também podem trazer grandes resultados para sua empresa. Em artigo publicado para a Data Driven Investor, o Cientista de Dados Shaurya Uppal nos mostra alguns ótimos métodos de experimentação, para ir além do uso de testes A/B. São eles:
-
Método Naive ou ‘Ingênuo’;
-
Experimentos de retorno (ou experimentos de divisão de tempo);
-
Controle Sintético (ou Inferência de Impacto Casual);
-
Método Switchback.
Vejamos um pouco mais sobre cada um deles a seguir.
Método Naive ou ‘Ingênuo’
O primeiro método é chamado de “naive”, ou ingênuo. Essa abordagem consiste em criar uma versão completa de um teste e analisar o impacto antes e depois da nova versão, apenas com base nas métricas. Contudo, como não possui grupo de controle, essa não é uma abordagem científica, uma vez que não considera fatores externos. Por isso, temos outras opções.
Experimentos de retorno ou experimentos de divisão de tempo
Para exemplificar este método, Shaurya cita um artigo publicado por pesquisadores do MIT e Harvard, que descreve uma estrutura teórica para análise e design ideais dos chamados “experimentos de retorno”. Basicamente, esses testes empregam um rearranjo sequencial de controle/tratamentos para remover vieses inerentes a determinados dados.
Hoje em dia, esses métodos são bem populares em mercados bilaterais, como Uber, Ola, Lyft, entre outros, uma vez que permitem uma experimentação mais robusta em dados, porém com recursos infinitos.
No caso da experimentação de retorno, só é possível utilizá-la ao experimentar diferentes algoritmos que não são voltados para o usuário. Assim, não é possível mostrar coisas diferentes na interface do usuário, pois seria uma experiência ruim e uma “quebra de contrato”.
Controle Sintético ou Inferência de Impacto Casual
O método de controle sintético é um método estatístico utilizado para avaliar o efeito de uma intervenção em estudos de caso comparativos. Isso envolve a construção de uma combinação ponderada de grupos usados como controles, aos quais o grupo de tratamento é comparado. Em geral, essa comparação é usada para estimar o que teria acontecido com o grupo de tratamento se não tivesse recebido o tratamento. Em seu artigo, Shaurya Uppal traz algumas imagens para deixar o conceito mais claro.
Na figura, é possível perceber que a linha azul escura representa a métrica analisada para concluir o impacto do experimento, enquanto a linha pontilhada é a previsão do que aconteceria se o tratamento não estivesse sendo implementado. A diferença entre a linha pontilhada e a linha azul escura é o efeito do tratamento.
Método Switchback
Por fim, temos o método switchback. Em resumo, ele divide um grupo fixo de usuários em versões de tratamento e controle ao longo do tempo. Em seu artigo, Shaurya traz uma imagem que ilustra essa ideia:
É possível explicar melhor este método através do estudo de caso da empresa Doordash Engineering, uma plataforma de logística que permite a realização de milhões de pedidos por dia em todo o mundo. Para isso, os testes A/B já não eram suficientes em alguns tipos de testagens.
No caso da Doordash, a empresa utiliza o switchback da seguinte forma: a cada 30 minutos, seleciona aleatoriamente todos os usuários do “Grupo de Usuários A” para o grupo de controle ou de tratamento. Este método pode ser aplicado a experimentos com qualquer número de tratamentos. Vale dizer que a duração de cada divisão de tempo é bastante arbitrária, no entanto, o princípio orientador é que a duração deve ser pequena o suficiente para mostrar insights válidos em relação aos dados, mas não desnecessariamente pequena para que a computação se torne um problema.
Portanto, embora a empresa também faça uso de testes A/B, eles não são ideais para testar o algoritmo de atribuição, uma vez que o resultado de uma entrega depende muito do resultado de outra entrega. Nesse caso, o método de experimentação Switchback era o mais indicado para a análise.
Conclusão
Enfim, ao longo deste artigo foi possível entender um pouco mais sobre os testes A/B e sua importância no mundo da experimentação, mas também suas limitações. Ficou claro que esse tipo de método nem sempre é o ideal, ou mesmo aplicável, e por conta disso é importante conhecer os métodos de experimentação alternativos, mesmo que todos eles também tenham suas desvantagens. A solução é analisar caso por caso, e entender em quais momentos o teste A/B será útil para sua empresa, e em quais momentos deve ser simplesmente deixado de lado.
Para saber mais sobre o assunto, confira este artigo sobre a evolução da experimentação de dados, e também um texto que mergulha na cultura de testes e experimentação dentro das empresas. Boa leitura!