Muita gente acha que trabalhar com Data Science significa somente saber programar ou rodar técnicas estatísticas.
Nem imaginam o tanto de criatividade e curiosidade necessárias para encontrar boas fontes de dados e criar lógicas de integração que otimizem resultados.
Este caso do US Census Bureau, tratado no livro The Mathematical Corporation, mostra bem isso.
A cada 10 anos, o Bureau (uma espécie de IBGE Americano) realiza o censo para atualização dos dados demográficos do país. Um dos grandes desafios da Chief Operating Officer, Nancy Potok, é a redução de custos operacionais a partir da implantação de projetos de Data Science. Eles até produziram um material bem interessante sobre como trabalhar cientificamente com a base de dados deles.
A ideia é usar tecnologia para reduzir o trabalho manual. Sua meta? Conseguir 5 bilhões de dólares em redução de custos no censo de 2020. O custo estimado é de 18 bilhões e o congresso impôs uma meta de 12,8 bilhões. Como contrapartida, Nancy pediu orçamento para contratar especialistas multidisciplinares e ferramentas para seu projeto de Data Science.
Um exemplo de mudança é a forma de trabalho dos 300.000 recenseadores que baterão na porta das casas dos americanos para buscar respostas.
Em vez de pegarem seus carros e irem arbitrariamente aos endereços sorteados, eles terão um app em mãos com uma rota pré-definida (a rota estatisticamente ótima para consumir menos tempo e gasolina) e chegarão às casas no momento de mais probabilidade de encontrar os moradores. Em 2010, cada recenseador traçava sua própria rota e anotavam tudo em papel. Grande parte das vezes, ele dava com a cara na porta pois não havia ninguém em casa.
A primeira iniciativa foi usar dados de vários entes governamentais como o Medicare, Veterans Administration e o a Social Security Administration para conseguir dados atualizados sobre as pessoas. 6 milhões de pessoas que não quiseram fazer o auto-preenchimento do censo não precisaram ser entrevistadas pessoalmente pois o Census Bureau fez o Data Collection a partir de APIs com estas instituições.
A segunda iniciativa foi permitir que as pessoas respondam ao censo por conta própria, sem necessidade de visita pessoal ou envio de um formulário por correio. Para conseguir respostas online, o Bureau criou um sistema de segurança da informação que permite as pessoas responderem usando senhas pelos seus smartphones ou em quiosques em locais públicos.
A terceira iniciativa foi a comparação de imagens aéreas e de satélites com os mapas do Census Bureau, buscando por diferenças nas ruas e casas em relação aos dias anteriores. Se as imagens mostrarem que ninguém entrou ou saiu de uma casa, não o recenseador nem é enviado ao local. Somente esta ação economizará 450 milhões de dólares e representa 75% do tempo das pessoas que se deslocavam em vão no censo anterior.
E há quem diga que não é preciso criatividade para trabalhar com números. A grande sacada da Nancy Potok foi buscar informações onde não se esperava, de forma inusitada e tecnicamente rigorosa. É um belo case para inspirar os gestores públicos brasileiros.