Muitas vezes ouço que Big Data é sinônimo de Hadoop. Mas Big data é muito mais que Hadoop. Na verdade Big data embute três mudanças significativas na maneira de como pensamos o tratamento e análise de dados. A primeira é que tratar volumes muito grandes muda nossa percepção de como olhar os dados. Na prática quando mudamos de escala, nossa percepção muda. Por exemplo, se sairmos do nosso mundo onde reconhecemos a diferença entre um objeto sólido e o ar a nossa volta e caímos em outra escala, como o nível quântico, tudo passa a ser átomo. As diferenças entre objetos e o ar, como conhecemos no nosso dia a dia, deixam de existir. O mesmo acontece quando saímos de um volume pequeno para um no mínimo, monstruoso, de dados.
A segunda é que estaremos mais preocupados com a tendência que com a exatidão. Quando trabalhamos com números pequenos, focalizamos na exatidão dos dados. Já com números muito grandes queremos identificar a tendência. Vamos usar como exemplo uma pequena loja, que faz fechamento diário e se preocupa com centavos de diferença e com um numero grande, que já usamos de forma natural, o PIB de um país, que não nos interessa nem chegar na casa dos milhões. E a terceira mudança é que deixamos de ficar restritos a causalidade e nos atemos às correlações.
Vamos falar um pouco destas três mudanças de mindset. Comecemos com o volume de dados. Pelas dificuldades de coletarmos, tratarmos e analisarmos imensos volumes de dados acabamos nos restringindo a pequenas partes dos dados disponíveis e somos obrigados a ser inventivos e criar mecanismos como amostragens para desta pequena parcela possível de dados conseguirmos ter uma visão estimada do todo. Amostragens evoluíram ao longo de décadas e conseguimos ter hoje uma boa aproximação do todo, com margens de erro pequenas. Mas, sua acurácia depende da amostra obtida (quanto mais randômica melhor) e tem contra si os inevitáveis vieses da própria coleta de dados. Por exemplo, se coletamos dados do Twitter estaremos de alguma forma considerando que seus usuários, estimados hoje em 250 milhões, formam a representação da população do planeta. Mas será que o Twitter representa adequadamente a parcela da população que ainda não tem acesso à Internet ou seja, mais da metade das pessoas da Terra? Criar subgrupos para análises mais focadas também já eleva a taxa de erros, pois a amostragem vai provavelmente se mostrar insuficiente. Hoje temos condições de coletar dados em volumes inimagináveis a poucos anos atrás. Estima-se que nossa sociedade gere 2,5 quintilhões de bytes diariamente. Estamos chegando em uma fase em que N = all. E isto muda nossa maneira de analisar os dados. O projeto Google Flu Trends é um exemplo clássico. Ele conseguiu identificar uma epidemia de gripe devido aos bilhões de buscas e acessos aos sites do ecossistema do Google. Com métodos de amostragens não seria possível chegar ao mesmo resultado.
A segunda mudança no pensar é a questão da exatidão dos dados. Com volume pequeno uma alta qualidade dos dados é essencial. Erros em amostragens pequenas podem grandes gerar erros de interpretação. Mas se imaginarmos um volume imenso e variado de dados, coletados de diversas fontes, a precisão talvez não tenha tanto significado. Alguns erros não afetarão o todo. Podemos sacrificar a precisão pela obtenção da tendência. Muitas vezes não é necessário apontar um fato com precisão, mas apontar a tendência. Exemplo, em 1959, cientistas disseram que em dez anos o computador seria capaz de ganhar de um ser humano no xadrez. Aconteceu, mas apenas em 1997. Eles erraram a data, mas acertaram na tendência. Tem um paper muito interessante que aborda esta questão, de como um volume muito grande de dados pode ser uma eventual opção melhor que um algoritmo mais sofisticado. Vale a pena ler. O diretor de pesquisas do Google, Peter Norvig também faz menção a este fato dizendo “”We don’t have better algorithms. We just have more data.”. O paper sobre este assunto pode ser acessado aqui . Outra leitura recomendada é “If you have too much data, then “good enough”is good enough”, de Pat Helland. Estes estudos não pretendem demonstrar que precisão é desnecessária. Precisamos ter precisão de 100% nos sistemas transacionais como no nosso sistema de conta corrente no banco e nos sistemas de reserva de passagens aéreas. Mas em analytics, onde Big data tem papel preponderante, a precisão pode ser deixada muitas vezes em segundo plano em favor da tendência a ser identificada.
A terceira mudança no pensar é sairmos das causalidades para correlações. Analisando imensos e variados volumes de dados podemos identificar correlações antes desconhecidas. Um exemplo é o próprio projeto Google Flu Trends, referido anteriormente. Quanto mais pessoas de uma determinada área geográfica fizerem buscas na web sobre palavras e textos referentes a gripe maior a probabilidade de uma epidemia de gripe estar realmente acontecendo no local. Correlações não é garantia de certeza, mas apenas de probabilidades. Neste campo, vão brilhar os algoritmos preditivos. Eles podem correlacionar diversas variáveis e prever que determinados componentes de um veículo vão apresentar falhas. A idéia que o importante é o “que” está acontecendo e não o “porque”.
Na verdade estamos dando os primeiros passos em direção a uma melhor compreensão do poder do Big data. Surgem opiniões ousadas como a de Chris Anderson que afirmou em um artigo “the data deluge makes the scientific method obsolete”. Segundo ele a possibilidade de analisar e correlacionar imensos volumes de dados pode vir a substituir o processo tradicional de descobertas cientificas, baseadas no conceito de causalidade: testarmos hipóteses para provarmos a teoria. Quando o artigo surgiu causou intenso debate mas de qualquer modo é uma nova maneira de ver as coisas. Big data não vai causar o fim das teorias e das pesquisas cientificas como conhecemos, mas com certeza poderá contribuir em muito com novas alternativas. Aliás, especula-se que além da experimentação, teoria e simulação, Big data poderá ser o quarto pilar da ciência. Um livro interessante sobe o assunto, que fala em Big data como o quarto paradigma da ciência pode ser baixado aqui.
Big data é um tsunami em alto mar, mas vai chegar logo. Portanto sugiro começar a estudar e entender melhor o assunto. Estar preparado é melhorar a empregabilidade!