Grandes equipes podem apresentar uma efervescência de ideias sem fim, mas como escolher as melhores e adotar os melhores testes para coleta de dados? Com o design de experimentos ficou mais fácil definir os caminhos a serem tomados!
Um bom projeto experimental é fundamental para responder perguntas e resolver problemas que surgem na empresa. Eles auxiliam na escolha da direção certa em situações complexas, mas precisam de um planejamento adequado e efetivo.
Nesse sentido, muitas vezes não temos os dados necessários para responder um problema, e obter o conjunto de dados completo não é possível ou levaria muito tempo para coletar. É preciso projetar uma forma de obter esses dados da melhor forma, rapidamente e com eficiência. É aí que entre o design de experimentos!
O que é o design de experimentos
Um experimento é definido, de forma geral, como um procedimento feito para validar ou refutar uma hipótese. Eles envolvem diversos testes, feitos de forma controlada, que verificam se uma solução proposta para um determinado problema realmente funciona.
Enquanto isso, o design de experimentos (também chamado de design experimental) é um método utilizado para organizar, conduzir e interpretar os resultados desses experimentos de forma eficiente. Dessa forma, é possível garantir que o máximo de dados úteis sejam obtidos com o menor número de tentativas. Ou seja, de forma mais rápida e com menos recursos empregados.
O método se mostra ainda mais útil para cientistas de dados que conduzem experimentos para machine learning. Afinal, as ideias tendem a surgir aos montes e é difícil não ficar sobrecarregado em meio a esse turbilhão. O design de experimentos auxilia esses profissionais a descartar ideias específicas e a utilizar o conjunto de dados que faz sentido para determinado algoritmo. Isso auxilia na redução de tempo e custos.
No artigo “The Importance of Experiment Design in Data Science”, a líder em inovação de IA/ML, Vidhi Chugh, traz um exemplo para a utilização do design de experimentos:
“Muitas vezes, os cientistas de dados assumem que tipo de estrutura de aprendizado de máquina seria a mais adequada para o problema em questão. Entender o contexto de negócios está no centro dos projetos de aprendizado de máquina. Como mapear um problema de negócios é crucial para o sucesso do resultado. Vamos entender com um exemplo como um experimento típico de machine learning funciona: com base nessas entradas, os cientistas de dados precisam restringir e decidir qual algoritmo usar. Se for um problema de classificação, usar regressão logística ou classificador de random forest constitui um dos experimentos.”
Antes de projetar um experimento, faça considerações
Antes de levar ideias adiante e escolher os experimentos a serem aplicados, é preciso fazer algumas considerações:
-
Hipótese: compreensão intuitiva de como este experimento resolverá o problema encontrado.
-
Dados disponíveis: temos as informações certas para começar?
-
Dados necessários: ter muitos dados não significa que o projeto terá sucesso. É preciso avaliar criteriosamente quais são as informações realmente necessárias para resolução do problema.
-
Nível de Esforço (LOE): Quanto esforço será necessário para a realização do experimento?
-
Faça você mesmo (DIY) ou Open Source: existe uma ferramenta, pacote, biblioteca ou base de código já existente que pode ser rapidamente aproveitada para concluir a hipótese?
-
Independente ou não: esse experimento depende de algum resultado ou é independente? Muitas dependências ou falta de estrutura podem afetar a velocidade do experimento.
-
Critérios de sucesso: como concluir o experimento com os retornos esperados?
-
Teste de Integração: se o seu experimento for bem-sucedido e houver uma mudança no ambiente, ele ainda será confiável? É estatisticamente significativo? Você tem confiança de que os resultados são reproduzíveis? O resultado final se integra bem ao restante do ecossistema de machine learning?
4 fatores para lembrar ao projetar um experimento para coleta de dados
1. Tempo
Seu experimento precisa ser projetado e implementado dentro de um período de tempo razoável. Quando alguma etapa dos testes é executada em um período demasiadamente longo, a empresa pode perder em lucros e vendas.
2. Quantidade de dados
É preciso ter certeza de que os dados coletados com seu experimento sejam suficientes para responder às perguntas levantadas. Para isso, lembre-se: a quantidade de informações coletadas precisa ser pequena em comparação com a população, caso contrário, os dados precisam de muito tempo para serem coletados.
Além disso, a amostra deve representar toda a população, representando demograficamente as características reais do público (faixas etárias, sexo, etnia etc.).
3. Determinar Fatores Importantes
Ao projetar experimentos para coleta de dados, é preciso decidir quais são as variáveis dependentes ou fatores preditores. Com isso, é possível entender quais são os recursos importantes e quais são de qualidade.
4. Custo
Experimentos para a coleta de dados podem ser muito caros, fator que envolve desde o projeto inicial até a execução. Assim, é importante estimar qual o custo real do teste, e se os benefícios superam o risco envolvido.
O fluxo do design de experimentos
Se você já avaliou todas as possibilidades e percebeu que o experimento vale a pena, chegou a hora de pôr a mão na massa. O fluxo do design de experimentos começa com a formulação das perguntas que auxiliarão na resolução do problema; depois, é preciso desenhar a configuração do projeto para uma boa coleta de dados; a terceira etapa é de identificação dos problemas e fontes de erro em seu design; e só então deve-se aplicar a coleta.
Ou seja, o design de experimentos ocorre em 4 passos:
1. Formular as perguntas;
2. Desenhar o experimento;
3. Identificar os problemas e as fontes de erro no design de experimentos;
4. Coletar os dados.
Princípios de design de experimentos
No artigo “Experimental Design in Data Science” de Benedict Neo, o cientista da informação explica que existem três princípios dentro do design de experimentos. São eles:
1. Variável independente (eixo x): a variável que é manipulável, não dependente de outras variáveis;
2. Variável dependente (eixo y): variável esperada para mudar como resultado de transformações na variável independente;
3. Hipótese: um palpite sobre a relação entre as variáveis e o resultado do experimento.
Benedict exemplifica com a aplicação do design experimental como teste para a correlação entre livros lidos e alfabetização. Nesse modelo, os princípios são preenchidos da seguinte forma:
Eixo X: Livros lidos;
Eixo Y: Alfabetização;
Hipótese: à medida que a leitura de livros aumenta, a alfabetização também aumenta.
Além disso, ele configura o experimento supondo que o nível de alfabetização depende dos livros lidos e desenha o teste para medir o número de livros lidos e alfabetização de 100 indivíduos (amostra total).
Seguindo o terceiro passo do fluxo de design de experimentos, Benedict alerta que devemos considerar os problemas que podem causar erros no resultado. Por isso, ele cria um grupo de controle e outro de tratamento, mas por quê?
No caso em questão, a idade pode influenciar nos resultados, assim, é preciso medir a idade de cada indivíduo para levar em conta os efeitos da idade na alfabetização. Com isso a divisão é a seguinte: grupo controle (participantes de idades fixas) e grupo de tratamento (participantes da faixa etária).
Depois disso, chega a hora de efetivamente coletar os dados, responder às perguntas e, posteriormente, aplicar os insights obtidos.
Ficou mais claro com o exemplo, certo? Agora é hora de aplicar o design de experimentos e conquistar resultados ainda melhores para a sua empresa!