A análise preditiva pode impedir que você chegue atrasado ao trabalho, sofra de uma doença grave ou mesmo perca clientes em seu negócio. Confira 5 cases interessantes do uso desta análise de dados.
Atualmente, seja em setores de saúde, advocacia, educação, marketing ou mesmo controle de resíduos e tantos outros, a maioria deles possui alguma forma de Ciência de Dados. Assim, seja a partir da análise de dados, Inteligência Artificial, Machine Learning ou outras tecnologias, é possível sim tomar decisões sobre fatos que ainda não aconteceram, com base em certas metodologias. A análise preditiva é uma dessas formas de tomar decisões, mas utilizando como base os resultados passados, para tentar prever o que acontecerá no futuro.
Mas nem sempre este tipo de abordagem fica tão clara na teoria, e é por isso que decidimos trazer este artigo, para exemplificar em 5 casos únicos como funciona o pré-processamento e análise de dados, seguida da análise preditiva. Então, vamos começar!
Case 1 – Dados de Fitness
Se você já olhou para o pulso de alguém e viu um relógio com informações de monitoramento de saúde, é disto que estamos falando. Com dispositivos médicos cada vez mais sofisticados, existe uma grande quantidade de dados de condicionamento físico sendo coletados das pessoas todos os dias.
Contudo, a menos que sejam usados para algum objetivo, esses dados são inúteis. Mas uma das respostas que vêm sendo encontradas é aplicar técnicas de análise preditiva de condicionamento físico a estes dados. Com isso, é possível analisar as informações atuais e também o histórico do usuário, promovendo um plano personalizado para aumentar sua saúde e bem-estar.
Um estudo realizado pela FitBit mostrou que o uso de dados de frequência cardíaca em repouso e outros indicadores-chave de saúde de wearables têm o potencial de melhorar a observação e a análise da gripe em tempo real. O que, por sua vez, pode ajudar as autoridades de saúde pública a responder mais rapidamente aos surtos. Além disso, em muitas empresas, empregadores já estão usando programas de saúde e bem-estar para aumentar o engajamento e a produtividade dos funcionários. Dependendo da doença que estamos tentando prever, é preciso reduzir o número de variáveis e restringir os dados usando os fatores que contribuem para a doença em questão.
Em seguida, vem a etapa do pré-processamento. Nela, ocorre a filtragem e o processamento de dados atípicos, evitando que dados extremos corrompam o conjunto de informações e, assim, produzam variações nos resultados esperados.
Enfim, ocorre a última etapa, da normalização de dados. Nesse caso, a ideia é assumir que todos os recursos são de média zero e têm variâncias na mesma ordem. Desse modo, se a variância do recurso for muitas ordens de magnitude maior do que a variância de outros recursos, ela dominará o algoritmo de aprendizado. É por isso que a normalização de dados acontece sempre antes de qualquer teste ou modelo ser aplicado.
Case 2: predições de Churn
A palavra “churn” significa, em tradução livre, a descontinuidade de um contrato. Com isso, o churn de uma empresa significa clientes ou usuários que deixam um serviço ou migram para concorrentes do mesmo setor. A previsão deste índice é muito importante para qualquer organização, pois uma boa análise preditiva pode encontrar formas de diminuir o churn e, consequentemente, aumentar os resultados do negócio.
Em geral, a previsão de churn é obtida a partir de um modelo baseado em Inteligência Artificial, que ajuda a avaliar a chance de seus clientes pararem de usar ativamente um serviço ou produto. Com isso, o aprendizado de máquina trabalha com os dados e analisa e prevê quantos clientes provavelmente sairão, para que medidas preventivas possam ser tomadas. A regra é clara: se o crescimento for maior que o churn, o negócio está crescendo. Contudo, se o churn for maior que o crescimento, o negócio não está indo bem.
Com isso, as entradas do banco de dados são pontuadas usando um modelo estatístico, definido sobre vários atributos que caracterizam os clientes, também chamados de variáveis de previsão. Neste caso, normalmente são usados 4 conjuntos de variáveis de dados:
Comportamento do cliente
Percepções do cliente
Dados demográficos do cliente
Variáveis de ambiente de macro
Com o tamanho dos dados coletados geralmente é grande, primeiro se utiliza a etapa de pré-processamento, ou redução de dados, para então utilizar algoritmos como a análise de regressão. A regressão é considerada uma técnica muito boa para prever a satisfação do cliente e, portanto, a rotatividade do cliente. E, como o resultado desejado é apenas prever se o cliente é churner ou não churner, as técnicas de regressão logística são mais adequadas.
Em estudo publicado pela Springer Link, sobre o uso de análise preditiva para identificar a propensão ao churn em uma instituição financeira, foram identificar atributos com maior poder preditivo de um potencial churn de clientes, dando a chance de as empresas resolverem a questão antes de perderem faturamento.
Case 3: análise de sobrevivência
Em estudo realizado pela Escola de Saúde Pública da Universidade de Boston, nos EUA, foi possível estabelecer uma conexão entre as covariáveis e o tempo de um evento. O nome ‘análise de sobrevivência’ teve origem em pesquisas clínicas onde predizer a hora da morte, ou seja, o tempo de sobrevivência de um paciente, muitas vezes é o principal objetivo. Assim, ao invés de se concentrar em um único período de tempo de evento, realizou-se a análise preditiva para determinar a função de sobrevivência ou de risco. Isso não é útil apenas em medicina ou engenharia, também é útil para diferentes tipos de negócios, uma vez que pode ser utilizado para prever o tempo de permanência de um funcionário dentro de uma empresa.
Nesse caso, existem diferentes maneiras de estimar uma função de sobrevivência ou uma curva de sobrevivência. Entre os métodos conhecidos, estão:
Distribuição exponencial
Distribuição Weibull
Distribuição Gompertz
Distribuição lognormal
Já na etapa de pré-processamento, é necessário examinar os valores discrepantes e tentar determinar os motivos pelos quais uma pessoa desistiu do estudo, substituindo isso por uma estimativa ou média. Para isso, foram utilizadas a abordagem Kaplan – Meier, para calcular a probabilidade de sobrevivência, e também modelos de riscos proporcionais.
Case 4 – Previsão de falhas do sistema
Este case foi organizado pela Celebal Technologies, em Jaipur, na Índia. Nesse caso, a análise preditiva é utilizada para encontrar possíveis falhas dentro de um sistema, seja em uma rede de computadores, estações de trabalho, etc. Assim, segundo o estudo, os efeitos adversos da falha do computador podem ser mitigados até certo ponto se a análise preditiva for feita com antecedência. Na etapa de pré-processamento de dados, as informações utilizadas são arquivos de log obtidos dos sistemas, sendo três utilidades principais consideradas: CPU, RAM e utilização do disco rígido.
Com isso, arquivos de log com carimbos de data/hora podem fornecer a utilização exata dos recursos a qualquer momento. Para isso, arquivos de utilitários são convertidos em arquivos csv (valores separados por vírgula) para um estudo mais aprofundado, permitindo que os dados sejam padronizados, e o modelo de aprendizado de máquina escolhido.
Para este caso, o modelo de Machine Learning escolhido foi o LSTM, ou Long Short Term Memory, um modelo RNN de rede neural recorrente. Desse modo, o algoritmo de classificação de regressão logística pode ser usado para classificar corretamente se o valor previsto cai na classe de falha ou não. Em seguida, um e-mail de alerta ou SMS para o administrador pode ser enviado antes que a falha real aconteça.
Case 5 – problemas no trânsito
Por fim, o último estudo de caso foi desenvolvido pelo Instituto de Tecnologia de Massachusetts, nos EUA, com foco na questão do trânsito. Dessa forma, imagine que você tem um evento importante, mas escolheu pegar uma determinada rota, e ficou preso no trânsito. Nesse caso, teria sido melhor ter a informação de que rota diferente poderia ter sido escolhida. E é exatamente nisso que a análise preditiva pode ajudar.
Portanto, na etapa de prescrição e pré-processamento de dados, foi utilizado um conjunto de dados proveniente dos sistemas de navegação GPS, presentes hoje na maioria dos telefones celulares e dos carros modernos. Com isso, utilizou-se o sistema de gerenciamento de tráfego inteligente (ITMS), projetado para tecnologia de rede de longa distância, podendo prever o fluxo de tráfego dinâmico e o congestionamento do tráfego. Segundo o estudo, os dados coletados dos sensores inteligentes foram transferidos para a plataforma de nuvem LoRa proposta, e os algoritmos de análise de dados executados.
Depois desta etapa, foi preciso escolher os diferentes atributos que contribuem para o congestionamento do tráfego e, em seguida, alimentar o modelo de aprendizado de máquina com os dados obtidos.
Para isso, o algoritmo de escolha foi o algoritmo de regressão logística, um dos mais gerenciados atualmente. As duas principais entradas foram tempo de viagem e densidade, e a previsão de tráfego foi toda baseada nessas duas informações. Então, o algoritmo foi capaz de prever a saída real do congestionamento de tráfego, o que também pode ser usado para calcular o caminho mais curto ou a rota mais rápida para os motoristas.
Conclusão
Como foi possível perceber, a análise preditiva pode ajudar você desde o momento de sair de casa, para evitar o trânsito na hora de ir ao trabalho, até ao aumento de produtividade dentro de sua empresa, ou mesmo para identificar um risco de doenças graves e, então, adiantar o tratamento adequado.