Estamos definitivamente entrando na era do Big Data

Recentemente li dois papers que me chamaram atenção para a crescente importância do fenômeno Big Data. O primeiro é “Big Data, Big Impact: New Possibilities for International Development”, publicado pelo World Economic Forum. O documento mostra como analisando padrões em imensos volumes de dados pode-se prever desde a magnitude de uma epidemia a sinais de uma provável ocorrência de uma seca severa em uma região do planeta. O documento mostra alguns casos muito interessantes, inclusive o projeto da ONU, chamado Global Pulse, que se propõe a utilizar as tecnologias e conceitos de Big Data para ajudar a melhorar as condições de vida das populações do planeta.

Outro documento é “Obama administration unveils Big Data Initiative: announces US$ 200 million in new R&D investments”. O governo americano, ciente da importância do Big Data anuncia investimentos em pelo menos seis agências como National Science Foundation, National Institutes of Health e outras, para investimentos em pesquisas na área de Big Data. Um dos projetos é o “1000 Genomes” que disponibiliza 200 terabytes de dados para pesquisadores, armazenados em uma nuvem pública, neste caso da Amazon. O pesquisador paga apenas pelos serviços computacionais da nuvem e não pelo direito de acesso aos dados sobre genética humana.

Portanto, Big Data não é teoria ou futurologia. Geramos um imenso volume de dados a cada dia e análises de padrões e correlações nesta massa de dados pode produzir informações valiosíssimas em todos os setores da sociedade humana, de governos buscando entender demandas da população à empresas buscando se posicionar mais competitivamente no mercado.

Curiosamente quando abordamos o tema, surgem comentários do tipo “mas Big Data não é apenas um grande data warehouse?’ ou “Big Data não é apenas um BI em cima de um data set de terabytes de dados?”. Sim, ambas são corretas, mas Big Data é muito mais que isso.

Primeiro que indiscutivelmente estamos falando de um volume de dados muito significativo. Mas, além de volumes abissais, existem outras variáveis importantes que fazem a composição do Big Data, como a variedade de dados, uma vez que coletamos dados de diversas fontes, de sensores, a ERPs e comentários nas mídias sociais, e velocidade, pois muitas vezes precisamos analisar e reagir em tempo real, como na gestão automatizada do trânsito de uma grande cidade. Estas variáveis mudam de forma radical a maneira de se analisar dados. Em tese, em vez de amostragens, podemos analisar todos os dados possíveis. Um exemplo? Em vez de uma pesquisa de boca de urna nas eleições, onde uma pequena parcela dos eleitores é consultada, imaginem consultar todos os eleitores. Em teoria é praticamente quase que a própria eleição.

Pessoalmente adiciono outras duas variáveis que são veracidade dos dados (os dados tem significado ou são sujeira?) e valor para o negócio. Outra questão que começa ser debatida é a privacidade, tema complexo, que por si, merece um post dedicado.

Também observei que, quando se fala em Big Data, aparece uma concentração da atenção em análise e modelagem dos dados, herança das nossas já antigas iniciativas de Business Intelligence (BI). Claro que analisar os dados é fundamental, mas temos outras etapas que merecem ser entendidas, para termos uma melhor compreensão do que é Big Data e seus desafios.

A primeira fase de um processo de Big Data é a coleta de dados. Volume e variedade são suas características. Estamos falando de coletar dados de sistemas transacionais, de comentários que circulam nas mídias sociais, em sensores que medem o fluxo de veículos nas estradas, em câmaras de vigilância nas ruas e assim por diante. Cada negócio tem necessidade de coletar dados diferentes. Uma empresa de varejo, por exemplo, demanda coleta de dados sobre sua marca, produtos e reputação nos comentários extraídos das mídias sociais. Um banco, querendo fazer uma análise de riscos mais eficiente ou uma gestão anti-fraudes mais aperfeiçoada, precisa não apenas juntar dados das operações financeiras dos seus clientes, mas também o que ele comenta nas mídias sociais e até mesmo imagens obtidas de seu comportamento diante de uma ATM. Bem, começamos a levantar aqui as questões de privacidade.

Mas, coletar dados é apenas a primeira etapa. Um trabalho de limpeza e formatação também é necessário. Imaginemos uma imagem de raio-X de um paciente. Será armazenado da forma crua como obtida ou deverá ser formatada para ser analisada mais adequadamente mais a frente? Além disso, é importante validar os dados coletados. Erros e dados incompletos ou inconsistentes devem ser eliminados para não contaminar as futuras análises.

Aí entramos em outra etapa, que é a integração e agregação dos dados obtidos das mais diversas fontes. Os dados dos sensores do fluxo de tráfego devem ser integrados aos dados dos veículos que estão transitando e mesmo com as de seus proprietários.

Depois desta integração, temos então a fase mais visível que é a analítica, com a análise e interpretação dos resultados. É um desafio e tanto, pois terabytes de dados já existem e estão armazenados. A questão é “que perguntas fazer” para chegarmos à identificação de padrões e correlações que podem gerar valor para o negócio? Queries em cima de um Data Warehouse gerado por transações obtidas pelo ERP são relativamente bem estruturadas e dentro de um domínio de conhecimento bem restrito. Mas, quando se coleta dados de diversas fontes, criar estas queries requer muito mais conhecimento e elaboração por parte dos usuários. É aí que entra o Data Scientist, um profissional multidisciplinar, com skills em ciência da computação, matemática, estatística e, claro, conhecimentos do negócio onde está inserido. Esta fase também demanda investimentos em pesquisas de novas formas de visualização, que ajudem a melhor interpretar os dados. Gráficos e planilhas tradicionais não são mais suficientes. Um exemplo interessante é o projeto ManyEyes, da IBM.

Big Data demanda também grande capacidade computacional. Um ambiente em nuvem é bastante propício, como vimos no exemplo do projeto “1000 Genomes”. Para analisar volumes muito grandes é necessário também o uso de paralelismo, com tecnologias como Hadoop e MapReduce. Um exemplo prático de uso de Hadoop associado à análise de dados é o Big Insights, da IBM. Outra alternativa é a adoção de appliances, ou seja, uma solução integrada de hardware e software como o Netezza, da IBM.

E, um desafio que precisa ser bastante debatido é a questão da privacidade. Muitos setores de negócios são altamente regulados como saúde e financeiro, por exemplo. Claro que a possibilidade de integrar dados das mais diversas fontes sobre um determinado indivíduo ou empresa é sempre uma fonte de preocupações. Imaginem o que cada um de nós deixa de pegada digital. Deixamos nossa pegada digital a todo momento, seja usando o Internet banking, comprando pela Internet, acessando um buscador, tuitando, comentando alguma coisa no Facebook, usando o smartphone, ativando serviços de localização… Aglutinar todas estas informações permite a uma empresa ou governo ter uma visão bem abrangente daquela pessoa e de seus hábitos e costumes. Onde esteve a cada dia e o que viu na Internet. Se tem alguma doença ou se tem propensão a sofrer de uma. Esta questão nos leva a outro ponto extremamente importante: garantir a segurança deste imenso volume de dados.

Estamos definitivamente entrando na era do Big Data. Talvez não tenhamos nos conscientizado disso e nem mesmo parado para pensar no potencial que volumes abissais de dados podem nos mostrar quando devidamente analisados e interpretados. Por outro lado, existem muitos desafios, com novas tecnologias, novos processos e novas capacitações. Enfim, temos muita ação pela frente e tanto para profissionais como estudantes de computação (olha aí um tema quente para um TCC) abre-se um novo e desafiador campo de atuação.