Um pouco da história da Ciência de Dados

Das primeiras análises estatísticas da 2ª Guerra Mundial até o boom da Big Data e da computação em nuvem.

 

Hoje, a ciência de dados é um campo multidisciplinar que envolve programação, estatística, matemática, conhecimento de negócios e metodologia científica para extrair conhecimento e percepções a partir de dados. A disciplina de Data Science surgiu graças à convergência de uma série de fatores: novas ideias entre estatísticos acadêmicos, a difusão da ciência da computação em vários campos e um contexto econômico favorável.

Como a queda do custo da computação de modo geral permitiu que organizações armazenassem e processassem cada vez mais dados, surgiu a necessidade de encontrar novas maneiras de valorizá-los. Isso impulsionou o desenvolvimento de novos sistemas, algoritmos e paradigmas de computação. Hoje em dia, toda a lógica de armazenamento em nuvem escalou ainda mais a disciplina. Com a chegada do 5G que vem por aí, veremos um novo salto com toda certeza.

As origens

O termo Ciência de Dados surgiu apenas nos anos 2000. Para falar sobre a sua história, precisamos contar também a história da programação e da estatística. Um evento que contribuiu para o surgimento de muitas inovações tecnológicas foi a Segunda Guerra Mundial. Na época, a Estatística era considerada um campo da Matemática, e foi empregada em coisas como a quebra de códigos de mensagens secretas, aplicações militares e logísticas e, posteriormente, na aviação e na corrida espacial.

O famoso Eniac, considerado o primeiro computador do mundo, deu origem ao mainframe System 360, da IBM, na década de 60. Os computadores ainda enormes e complexos, mas um pouco mais gerenciáveis, se difundiram pelos campi universitários, principalmente nos Estados Unidos.

O universo da programação e dos computadores era restrito a universidades, governos e grandes companhias, por conta de toda sua complexidade. No final da década de 1960, surgiram pacotes de software estatístico, como BMDP, SPSS e SAS, que ajudaram estatísticos e outros profissionais não-programadores a lidar com as máquinas.

Fazer análises estatísticas era um processo complicado. Para analisar um conjunto de dados, era preciso primeiro escrever os próprios programas. Não havia GUIs (interfaces gráficas de usuário) ou aplicativos de escrita de código. Os pacotes estatísticos eram mais fáceis de usar do que as linguagens de programação, mas ainda eram complicados. Depois de escrever o programa de análise de dados à mão, era preciso esperar na fila por uma máquina perfuradora disponível para poder transferir o código do programa e todos os seus dados para cartões perfurados de computador de 3¼ por 7⅜ polegadas. Imaginem só…

Charlie Kufs é estatístico de formação com 40 anos de atuação com dados. Ele diz, em artigo no Medium, que na década de 60 e 70 os diversos profissionais com formações distintas que trabalhavam com dados já eram chamados de cientistas de dados. Porém, de alguma forma o termo não se popularizou e foi deixado de lado ao longo dos anos. A turma vivia longe dos holofotes da mídia e da exposição pública.

Kufs entende que o termo ciência de dados nessa época surgiu apenas como uma tentativa de cunhar um substantivo coletivo para todos os cálculos numéricos, assim como ciências sociais era um substantivo coletivo para a sociologia. antropologia e campos relacionados. Em sua visão, as ciências de dados incluíam qualquer campo que analisasse dados, independentemente da especialização do domínio.

Por exemplo, a estatística matemática não poderia ser considerada uma ciência de dados porque não envolvia dados, apenas números e mais números, uma lógica de pensamento. Mas já campos como Bioestatística, quimiometria, psicometria, estatísticas sociais e educacionais, epidemiologia, e mesmo estatísticas agrícolas, econometria e outras aplicações semelhantes faziam parte da ciência de dados. 

As estatísticas de negócios, fora da ciência atuarial, eram virtualmente inexistentes na época. Houve pesquisas iniciais, mas os líderes empresariais preferiam tomar suas próprias decisões, sem levar em consideração qualquer contexto envolvendo dados propriamente ditos.

Nessa época, em comparação aos dias atuais, era bastante restrita em termos de poder computacional e geração de dados. As grandes empresas tinham seus mainframes, grandes como dinossauros, diz Kufs, mas as empresas menores não tinham nenhum poder de computação. Havia um mercado pronto de estatísticos aplicados que aprenderam em um mainframe usando SAS e SPSS, mas não os tinham em seus locais de trabalho. Mas na década de 1980 muita coisa mudou.

Os cartões perfurados e suas máquinas de suporte foram extintos. Surgiam os computadores pessoais (PCs) que cabiam em uma mesa e agora as empresas começaram a implantar departamentos de TI. 

Pacotes estatísticos baratos que rodavam em PCs se multiplicavam. Todos esses pacotes tinham GUIs, embora fossem desajeitados e até mesmo inutilizáveis para os padrões atuais. Em meados da década de 1980, já era possível executar até mesmo a análise estatística mais complexa em menos tempo do que leva para beber uma xícara de café.

As vendas de PCs atingiram quase um milhão por ano em 1980. Mas então, em 1981, a IBM lançou seu PC 8088. Nas duas décadas seguintes, o número de PCs compatíveis com IBM vendidos aumentou anualmente para quase 200 milhões. Desde o início da década de 1990, as vendas de PCs foram impulsionadas pelo Pentium-speed, GUIs, a Internet e software acessível e fácil de usar, incluindo planilhas com funções estatísticas. 

O amadurecimento da Internet também criou muitas novas oportunidades. Não precisava mais ter acesso a uma biblioteca de livros para fazer uma análise estatística. Havia dezenas de sites com materiais de referência para estatísticas.  Se não conseguisse encontrar o que queria em sites, havia grupos de discussão online para compartilhar as dúvidas. Os dados que teriam sido difíceis ou impossíveis de obter na década de 1970 estavam agora a apenas alguns cliques do mouse, geralmente do governo federal.

Portanto, com as vendas de computadores disparando e a Internet se difundindo, o uso de estatísticas também aumentou consideravelmente.

Outro grande evento na década de 1980 foi a introdução do Lotus 1–2–3. O software de planilha fornecia aos usuários a capacidade de gerenciar seus dados, realizar cálculos e criar gráficos. Todos os que analisavam dados o utilizavam. Uma década depois de seu lançamento, ele perdeu sua relevância para o Microsoft Excel e, quando a ciência de dados se tornou atraente, na década de 2010, ele havia sumido.

Em meados da década de 1980, a análise estatística deixou de ser considerada domínio exclusivo dos profissionais de Estatística. Com a proliferação de PCs e softwares estatísticos e as universidades exigindo um curso de estatística para uma ampla variedade de outros cursos, tornou-se comum que não-estatísticos conduzissem suas próprias análises.  

Então veio a explosão de recursos de organização de dados. Bancos de dados relacionais e recuperação de dados SQL se tornaram “moda”. Não apenas os PCs estavam se tornando mais rápidos, mas as unidades de disco rígido estavam ficando maiores e mais baratas. Isso levou ao armazenamento de dados e, por fim, ao surgimento do Big Data, que trouxe Data Mining e modelagem de caixa preta. O BI (Business Intelligence) surgiu nesse contexto em 1989, principalmente em grandes corporações.

Então veio a década de 1990. A tecnologia entrou em alta. Bulletin Boards Systems (BBSs) e Internet Relay Chat (IRC) evoluíram para mensagens instantâneas, mídia social e blogs. A quantidade de dados gerados e disponíveis na Internet disparou. O Google e outros motores de busca proliferaram. Os conjuntos de dados agora não eram apenas grandes, eram enormes. Big Data exigia software especial, como o Hadoop, não apenas por causa de seu volume, mas também porque grande parte dele não era estruturado.

Então, o período de1995 a 2000 trouxe a linguagem de programação R. As faculdades que não podiam arcar com os custos de licenciamento e operacionais do SAS e SPSS começaram a ensinar R, que era gratuito. Isso teve como consequência trazer a programação de volta ao currículo de estatística aplicada. Isso também livrou os graduados de se preocupar em ter uma maneira de fazer sua modelagem estatística em seus novos empregos, onde quer que estevissem.

O boom dos anos 2000

Os anos 2000 trouxeram mais tecnologia. A maioria das pessoas tinha uma conta de e-mail. O acesso ao conhecimento ficou mais facilitado. Os telefones celulares evoluíram para smartphones. Os flash drives tornam os conjuntos de dados portáteis. A transferência de dados ficou facilitada via Bluetooth. 

Com essa difusão de dados e tecnologia, o que havia sido chamado de estatística aplicada e programação foi rebatizado como ciência de dados e big data. A matéria de Keith D. Foote no portal Dataversity conta que o surgimento da ciência de dados em si aconteceu em 2001, quando William Cleveland traçou planos para treinar os tais Cientistas de Dados para atender às necessidades do futuro.

Ele apresentou um plano um material intitulado Ciência de dados: um plano de ação para expandir as áreas técnicas da área de estatísticaDescreveu como aumentar a experiência técnica e a variedade de analistas de dados. Já em 2002, o Conselho Internacional de Ciência: Comitê de Dados para Ciência e Tecnologia passou a publicar o Data Science Journal, uma publicação voltada para questões como a descrição de sistemas de dados, sua publicação na internet, aplicações e questões jurídicas.

O resto da história da Data Science é lembrado com mais clareza porque é recente. A maioria dos cientistas de dados de hoje nem tinha se formado na faculdade na década de 2010. O evento que impulsionou a Data Science para a consciência do público, no entanto, é considerado por muitos como o artigo de 2012 da Harvard Business Review que declarou que o cientista de dados era o trabalho mais sexy do século 21, descrevendo o cientista de dados como “um profissional de alto escalão com treinamento e curiosidade para fazer descobertas no mundo do big data”. Foi escrito por DJ Patil e Jeff Hammerbacher, do LinkedIn e do Facebook, respectivamente.

Conforme os avanços tecnológicos e de conhecimento aconteceram, a ciência de dados foi surgindo e evoluindo de forma natural, para corresponder aos anseios e possibilidades de se trabalhar com dados nas organizações.

Em 2013, a IBM compartilhou estatísticas mostrando que 90% dos dados do mundo haviam sido criados nos últimos dois anos, o que aponta para um futuro ainda muito promissor para a área de dados.