Big Data

Ξ Deixe um comentário

A ciência de dados possui mais de 2 mil anos, mas nunca foi tão atual

publicado por Fernando Cardoso

aristotelisÉ comum ouvirmos que os meteorologistas foram os primeiros cientistas de dados. Se assim for, podemos dizer que a ciência de dados possui mais de 2 mil anos de idade: o tratado Meteorologika, de Aristóteles, foi produzido trezentos anos antes de Cristo.

No documento estão muitos elementos da ciência de dados como a conhecemos: o tratado reúne comentários sobre dados observados pelo cientista, além de explicações sobre o passado e presente do clima e terreno da região.

Vale notar, também, que nele são feitas previsões: uma discussão entre os pensadores da época consistia em descobrir se (e quando) o mar secaria; Aristóteles previu que isso não ocorreria e seu pensamento foi aceito por séculos.

Tendo esta perspectiva histórica, fica claro o motivo de nossa tese inicial: os meteorologistas foram os primeiros a usar dados de diferentes fontes para tentar entender e prever questões relevantes.

Em um mundo onde construir barcos e plantar formam o dia-a-dia da sociedade, é necessário saber se o mar secará e se choverá na plantação – e, é claro, é preciso um arcabouço para responder esta e outras perguntas com argumentos sólidos. No século XIII, Robert Grosseteste se baseou na obra de Aristóteles para modernizar a metodologia mantendo, porém, seu núcleo; o processo “questionar, coletar, interpretar, aprender, responder” se mantém firme, pois aprendemos que com ele entendemos o mundo – seja em 300 AC ou 2015 DC.

É claro que, no século XXI, este processo se tornaria mais complexo e formal. Em Outubro de 2013 Cathy O’Neil e Rachel Schutt, duas cientistas de dados de NY, publicaram o que foi chamado de processo geral da ciência de dados. Apoiadas em ombros de gigantes, cada etapa e atividade do processo carrega em si décadas ou mesmo séculos de aperfeiçoamento.

Processo Geral da Ciência de Dados

Processo Geral da Ciência de Dados

Primeiro, aspectos do mundo relevantes ao estudo são medidos: os dados “brutos” são coletados e são feitas transformações que os tornam “limpos”. Ralph Kimball e Bill Inmon, considerados como pais da DataWarehouse, abriram os caminhos para realizar estas etapas com excelência no último século e, se hoje muitas empresas realizam processos de ETL, parte do crédito lhes pertence.

Com os dados prontos, é possível explorá-los; John Turkey, matemático na Bell Labs, na década de 60 definiu o que é chamado de análise exploratória de dados, um tipo de análise em que parte-se do princípio que o entendimento sobre a pergunta a ser respondida muda a medida que os dados são “explorados” e entendidos. Isto formalizou a arte de ganhar intuição sobre os dados coletados, antes de qualquer tipo de modelagem complexa, custosa e específica.

Embora nem sempre responda as perguntas, a análise exploratória gera a segurança necessária para a próxima etapa, em que são aplicados os modelos estatísticos e algoritmos que geram as respostas desejadas. Em geral, as atividades nesta etapa são inferência estatística, classificação, reconhecimento de padrões, modelagem e predição. Para isto, são utilizadas desde ferramentas do século XIX, como inferência bayesiana, a algoritmos de aprendizado de máquina nascidos nos últimos anos.

Os resultados, por sua vez, devem ser visualizados e comunicados – e da maneira correta. Afinal, além de comunicar com clareza, uma visualização ideal deve estimular o interesse e engajamento adequados, de forma que conceitos simples não sejam apresentados de forma complexa, e conceitos complexos sejam transmitidos sem distorções. Neste sentido, o professor de Yale Edward Tufte dedicou sua pesquisa ao campo da visualização de dados, criando princípios para, em suas palavras, revelar os dados. Esta etapa não deve ser menosprezada: Tufte argumenta que o acidente aéreo do ônibus espacial Columbia, em 2003, poderia ter sido evitado caso um detalhe técnico contido em uma apresentação sobre a missão fosse melhor ilustrado.

A próxima e última etapa, de Recomendações, é a que diferencia esta ciência no século XXI: a ciência de dados passou a influenciar o mesmo ambiente que analisa. Como um sistema de retroalimentação, cientistas de dados analisam o mundo e seus resultados afetam o mundo. Isto é um paradigma bem diferente de nossa história inicial, aristotélica, onde o cientista era um observador tentando responder o mundo mas incapaz de interferir nele. Do ponto de vista de mercado, observe que este novo paradigma é mais interessante: caso seu negócio seja construir barcos, é bom descobrir que o mar secará um dia, mas saber que é possível impedir que isso ocorra é melhor ainda.

Tomemos o Netflix, líder do mercado de vídeos sob demanda: os dados e análises do comportamento de seus clientes (e.g. quais filmes são bem avaliados) são usados para recomendar outros filmes de seu gosto, melhorando a experiência de uso de serviço. Ao fazer isto, a plataforma digital influencia o comportamento futuro dos clientes – comportamento que será convertido em dados, que serão novamente coletados e analisados. Portanto, na etapa de Recomendações são criados os sinais de influência que tem potencial para mudar o mundo observável, retornando ao início do processo – analisar estas mudanças.

Vivemos em um momento único em que pessoas e negócios passaram a entender e influenciar outras pessoas e outros negócios como nunca, criando com clientes e mercados relações cada vez mais fortes e personalizadas. Neste cenário, ao investigar sobre a adoção de novas tecnologias e criação de equipes focadas em ciência de dados em empresas brasileiras, pode-se concluir que ainda há muito espaço para inovar e, portanto, as empresas que mais investirem neste campo certamente ofertarão serviços mais interessantes neste e nos próximos anos.

 

*Fernando Cardoso é consultor na Litteris Consulting e ultimamente tem escutado o que o Spotify o recomenda

[Crédito da Imagem: Ciência dos Dados – ShutterStock]

Artigos Relacionados

Autor

Fernando Cardoso é consultor na Litteris Consulting e ultimamente tem escutado o que o Spotify o recomenda.

Fernando Cardoso

Comentários

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Autores

Pesquisar:

Siga-nos!

Patrocínio

Facebook

Facebook By Weblizar Powered By Weblizar

Inscreva-se em nossa Newsletter