As limitações do teste A/B

 


testeab.jpg

O teste A/B apresenta limitações importantes: ele não é capaz de prover uma explicação sobre os resultados obtidos e tem capacidade limitada de controle das variáveis envolvidas no estudo.

Em um momento em que dados tornam-se cada vez mais centrais nas discussões sobre negócios, líderes não querem tomar decisões a menos que existam boas evidências. Isso é algo positivo e há muitas maneiras de obter informações sem depender de mera intuição. A Harvard Business Review levantou um panorama sobre um método muito comum, especialmente em contextos online: o teste A/B.

 

Segundo Kaiser Fung, fundador do programa de análise aplicada da Universidade Columbia, em Nova York, o teste A/B, em sua forma mais básica, é uma maneira de comparar duas versões de algo para descobrir qual apresenta melhor desempenho. Embora seja mais frequentemente associado a sites e aplicativos, Fung diz que o método tem quase 100 anos.

 

O pesquisador se refere aos experimentos que serviram como inspiração para o teste A/B, desenvolvidos pelo estatístico e biólogo Ronald Fisher, na década de 1920. Esses experimentos criaram os princípios mais importantes por trás do teste A/B e de experimentos controlados randomizados em geral. “[Fisher] não foi o primeiro a realizar uma experiência como essa, mas foi o primeiro a descobrir os princípios básicos, a matemática e torná-los uma ciência”, diz Fung.

 

Fisher fez experimentos agrícolas, motivado por perguntas como: “O que acontece se eu colocar mais fertilizante nesta terra?”. Os princípios persistiram e, no início dos anos 50, cientistas começaram a realizar ensaios clínicos em medicina. Nas décadas de 1960 e 1970, o conceito foi adaptado pelos profissionais de marketing para avaliar campanhas de resposta direta (por exemplo: “um cartão postal ou uma carta para o público-alvo resulta em mais vendas?”). O teste A/B, em sua forma atual, surgiu nos anos 90.

 

Como funciona o teste A/B?

 

Em primeiro lugar, é decidido o que se quer testar. Fung dá um exemplo simples: o tamanho do botão de inscrição em um site. Em seguida, é escolhida uma métrica de avaliação de desempenho. No caso, digamos que a métrica seja o número de visitantes que clicam no botão. Para executar o teste, dois conjuntos de usuários (designados aleatoriamente ao visitar o site) acessam as diferentes versões (cuja única diferença é o tamanho do botão). Em seguida, é aferida qual versão mais influenciou a métrica de sucesso. Nesse caso, qual tamanho de botão recebeu mais cliques.

 

Na vida real, muitas variáveis diferentes geram cliques. Por exemplo, pode ser que usuários em um dispositivo móvel sejam mais propensos a clicar em um determinado tamanho de botão, enquanto quem está no desktop seja atraído por um tamanho diferente. Daí o papel crítico da randomização. Ao escolher randomicamente quais usuários pertencem a cada grupo, diminuem as chances de que outros fatores (como o dispositivo utilizado) direcionem os resultados.


testeab2.jpg

Como as empresas têm utilizado teste A/B?

 

Fung diz que a popularidade do método aumentou uma vez que as empresas perceberam que o ambiente online é adequado para ajudar gerentes e profissionais de marketing a responder perguntas sobre quais elementos geram mais cliques, vendas ou inscrições. Atualmente, o teste A/B é usado para avaliar de tudo – design do site, ofertas online, títulos, descrições dos produtos.

 

Além de sites, é possível testar e-mails marketing ou anúncios. Por exemplo, duas versões de um e-mail podem ser enviadas para uma lista de clientes (randomizada) para que seja descoberto qual gera mais vendas. Duas versões de um anúncio também podem ser testadas, para que seja investigado qual delas converte visitantes com mais frequência.

 

Quais erros são cometidos com teste A/B?

 

Em primeiro lugar, Fung diz que muitos gestores não deixam os testes completarem seu percurso. Como a maioria dos softwares para executar esses testes permite que você assista a resultados em tempo real, os gerentes querem tomar decisões rápidas. O problema é que, por causa da randomização, é possível que, se o teste chegasse ao seu fim natural, o resultado obtido fosse diferente.

 

O segundo erro é observar muitas métricas. Ao observar um número imenso de métricas simultaneamente, corre-se o risco de fazer o que os estatísticos chamam de correlações espúrias. Quando um teste é adequadamente desenhado, são escolhidas poucas métricas, e antes da execução do teste.

 

Por fim, Fung diz que poucas empresas repetem os testes suficientemente. “Nós tendemos a testar uma vez e acreditar. Mas mesmo com um resultado estatisticamente significativo, há uma probabilidade bastante grande de erro falso positivo. A menos que você faça um novo teste de vez em quando, não descarta a possibilidade de estar errado.

 

Quais são as limitações do teste A/B?

 

A principal limitação do teste A/B é que ele não é capaz de prover uma explicação sobre os resultados obtidos. Não basta entender que determinada versão A é melhor do que a B. Quando a investigação se detém a essa mera constatação, não é possível entender o motivo que levou às alterações. Dessa maneira, nunca aprendemos teoricamente e ficamos restritos a apenas responder o veredito do teste.

 

A plataforma VWO listou como alguns experts analisam os resultados dos testes A/B. Não importa se o resultado tenha sido positivo, negativo ou inconclusivo, é fundamental se aprofundar e coletar insights. Como afirma Bryan Clayton, CEO da GreenPal:

 

Claro que um aumento de 5% ou 10% na conversão é ótimo. No entanto, o que você está tentando encontrar é o aprendizado sobre o que faz seus clientes dizerem “sim” para sua oferta. 

Além disso, é importante analisar todas as métricas envolvidas nos fenômenos que estão sendo estudados. Brandon Seymour, fundador da Beymour Consulting, aponta:

 

É importante nunca confiar em apenas uma métrica ou fonte de dados. Quando nos concentramos em apenas uma métrica de cada vez, perdemos a visão do contexto geral. A maioria dos testes A/B foi desenvolvida para melhorar conversões. Mas e outros impactos nos negócios, como SEO? 


testeab3.jpg

É também interessante que sejam criados segmentos diferentes dos públicos observados e que ele sejam analisados separadamente. Chadwick Martin Bailey segmenta seus públicos segundo os seguintes perfis: demográfico, atitudinal, geográfico, preferencial, comportamental e motivacional.

Para que mais insights sejam obtidos, devem ser monitoradas ferramentas de análise de comportamento do visitantes, tais como mapa de calor, mapa de rolagem e gravação dos visitantes. Por fim, é muito importante manter um repositório de conhecimento. Depois de analisar um teste A/B, é imperativo documentar as observações dos testes. Isso ajuda não apenas na transferência de conhecimento dentro da organização, mas também na utilização posterior de referências.

Controle de variáveis e experimentos científicos

Outra limitação central do teste A/B é a capacidade limitada de controle das variáveis envolvidas no estudo. No caso do tamanho de um botão, é simples entender que somente um elemento foi alterado e está sendo avaliado. Porém, quando o objeto do teste é uma mensagem de texto, é difícil isolar as variáveis que estão sendo trabalhadas. Um texto pode ter desempenho superior ao outro sem que se entenda qual elemento do texto teve efeito superior.

 

Somente experimentos científicos são capazes de um verdadeiro controle de variáveis. Como discutido no portal Towards Data Science, experimentos não fornecem informações para uma única decisão (“devo usar esse botão azul ou vermelho?”), mas oferecem conhecimento generalizável, que informa como pensar e construir um produto com perpetuidade. Esses são os tipos de insights com os quais produtos de sucesso são criados.

 

Enquanto testes A/B podem ser automatizados e monitorados por alguém sem muito conhecimento técnico, experimentos científicos precisam de uma combinação de negócios, produtos e habilidades estatísticas que só pode ser encontrada em especialistas de Data Science.

 

No caso dos experimentos científicos, a proposta da hipótese e o desenho experimental são o foco. São fundamentais questões como generalização dos resultados, escolha de métricas de resultados e controle de variáveis. Essas considerações podem ter sérias implicações para a qualidade e utilidade dos resultados do experimento.

 

Diferente de um teste A/B, números, por si só, não comunicam os resultados de um experimento. São necessários números, mas também contexto, detalhes da implementação e, talvez mais importante, uma narrativa que ajuste as descobertas a um entendimento mais amplo dos produtos, usuários e negócios.

 

Embora essas descobertas sejam confiáveis e úteis, elas nunca são definitivas. Toda a organização deve continuar aprendendo e atualizando as ideias à medida que o corpo de pesquisa se expande. 

Outras limitações

O portal de tecnologia Hacker Noon afirma que quando se trata serviços com milhões de usuários (como Facebook e Netflix), pequenas alterações no aplicativo (como cor, layout e linguagem) podem gerar aumentos significativos em métricas importantes, como cliques e engajamento. No entanto, empresas com bases de usuários menores talvez ganhassem mais com verdadeiras melhorias nos produtos oferecidos, ao invés de diferentes cores do botão “inscreva-se”.


1_ywNZ5SpV-Quyx_NeDtnVaA.jpeg

Isso porque, muitas vezes, o teste A/B se torna uma solução paliativa para proposições de baixo valor. Se o conteúdo não estiver sendo compartilhado, talvez esse conteúdo não seja digno de compartilhamento, independentemente do quão atraente seja o botão “compartilhar”. 

O Hacker Noon ainda lembra que, em casos em que alterações mensuradas por um teste A/B não movem as métricas, talvez isso seja um indicativo de um problema maior. Por exemplo, os visitantes não estão prontos para converter; estão procurando outra coisa além de se inscrever; o produto principal é fundamentalmente pouco atraente; é preciso direcionar leads mais qualificados para o produto.

 

Assim, o portal elencou algumas dicas para tornar o teste A/B verdadeiramente útil:

 

  • Não se distraia: A alteração de cores, texto do call-to-action ou layout pode ter um impacto marginal nas principais métricas de desempenho. No entanto, esses resultados parecem ser muito curtos. O crescimento sustentável não resulta da alteração de um botão de vermelho para azul, mas da construção de um produto que as pessoas querem usar.

  • Use estatística de verdade: Não confie em simples métricas de comparação um a um para afirmar o que funciona. Por exemplo, “a versão A gera uma taxa de conversão de 20%, a versão B gera uma taxa de conversão de 22% e, portanto, devemos mudar para a versão B”. Isso não deve ser feito. Verdadeiros índices estatísticos devem ser utilizados, como intervalos de confiança, z-scores e dados estatisticamente significantes.

  • Quanto mais tempo, melhor: Quanto mais tempo o teste for executado, melhores serão os dados em relação às flutuações e variáveis externas.

  • Está tudo bem com o fracasso, mas ele é caro: É importante mensurar quanto tempo está sendo gasto para projetar e implementar testes A/B. Fracassar e experimentar são subprodutos naturais da construção de uma empresa. Porém, se algo não estiver funcionando, talvez não seja porque o botão precisa ter uma cor mais clara, mas porque o recurso precise ser melhorado.