TecnologiaBig DataMitos do Big Data

Mitos do Big Data

-

Mitos sobre o Big DataMuitas vezes ouço que Big Data é sinônimo de Hadoop. Mas Big data é muito mais que Hadoop. Na verdade Big data embute três mudanças significativas na maneira de como pensamos o tratamento e análise de dados. A primeira é que tratar volumes muito grandes muda nossa percepção de como olhar os dados. Na prática quando mudamos de escala, nossa percepção muda. Por exemplo, se sairmos do nosso mundo onde reconhecemos a diferença entre um objeto sólido e o ar a nossa volta e caímos em outra escala, como o nível quântico, tudo passa a ser átomo. As diferenças entre objetos e o ar, como conhecemos no nosso dia a dia, deixam de existir. O mesmo acontece quando saímos de um volume pequeno para um no mínimo, monstruoso, de dados.

A segunda é que estaremos mais preocupados com a tendência que com a exatidão. Quando trabalhamos com números pequenos, focalizamos na exatidão dos dados. Já com números muito grandes queremos identificar a tendência. Vamos usar como exemplo uma pequena loja, que faz fechamento diário e se preocupa com centavos de diferença e com um numero grande, que já usamos de forma natural, o PIB de um país, que não nos interessa nem chegar na casa dos milhões. E a terceira mudança é que deixamos de ficar restritos a causalidade e nos atemos às correlações.

Vamos falar um pouco destas três mudanças de mindset. Comecemos com o volume de dados. Pelas dificuldades de coletarmos, tratarmos e analisarmos imensos volumes de dados acabamos nos restringindo a pequenas partes dos dados disponíveis e somos obrigados a ser inventivos e criar mecanismos como amostragens para desta pequena parcela possível de dados conseguirmos ter uma visão estimada do todo. Amostragens evoluíram ao longo de décadas e conseguimos ter hoje uma boa aproximação do todo, com margens de erro pequenas. Mas, sua acurácia depende da amostra obtida (quanto mais randômica melhor) e tem contra si os inevitáveis vieses da própria coleta de dados. Por exemplo, se coletamos dados do Twitter estaremos de alguma forma considerando que seus usuários, estimados hoje em 250 milhões, formam a representação da população do planeta. Mas será que o Twitter representa adequadamente a parcela da população que ainda não tem acesso à Internet ou seja, mais da metade das pessoas da Terra? Criar subgrupos para análises mais focadas também já eleva a taxa de erros, pois a amostragem vai provavelmente se mostrar insuficiente. Hoje temos condições de coletar dados em volumes inimagináveis a poucos anos atrás. Estima-se que nossa sociedade gere 2,5 quintilhões de bytes diariamente. Estamos chegando em uma fase em que N = all. E isto muda nossa maneira de analisar os dados. O projeto Google Flu Trends é um exemplo clássico. Ele conseguiu identificar uma epidemia de gripe devido aos bilhões de buscas e acessos aos sites do ecossistema do Google. Com métodos de amostragens não seria possível chegar ao mesmo resultado.

A segunda mudança no pensar é a questão da exatidão dos dados. Com volume pequeno uma alta qualidade dos dados é essencial. Erros em amostragens pequenas podem grandes gerar erros de interpretação. Mas se imaginarmos um volume imenso e variado de dados, coletados de diversas fontes, a precisão talvez não tenha tanto significado. Alguns erros não afetarão o todo. Podemos sacrificar a precisão pela obtenção da tendência. Muitas vezes não é necessário apontar um fato com precisão, mas apontar a tendência. Exemplo, em 1959, cientistas disseram que em dez anos o computador seria capaz de ganhar de um ser humano no xadrez. Aconteceu, mas apenas em 1997. Eles erraram a data, mas acertaram na tendência. Tem um paper muito interessante que aborda esta questão, de como um volume muito grande de dados pode ser uma eventual opção melhor que um algoritmo mais sofisticado. Vale a pena ler. O diretor de pesquisas do Google, Peter Norvig também faz menção a este fato dizendo “”We don’t have better algorithms. We just have more data.”. O paper sobre este assunto pode ser acessado aqui . Outra leitura recomendada é “If you have too much data, then “good enough”is good enough”, de Pat Helland. Estes estudos não pretendem demonstrar que precisão é desnecessária. Precisamos ter precisão de 100% nos sistemas transacionais como no nosso sistema de conta corrente no banco e nos sistemas de reserva de passagens aéreas. Mas em analytics, onde Big data tem papel preponderante, a precisão pode ser deixada muitas vezes em segundo plano em favor da tendência a ser identificada.

A terceira mudança no pensar é sairmos das causalidades para correlações. Analisando imensos e variados volumes de dados podemos identificar correlações antes desconhecidas. Um exemplo é o próprio projeto Google Flu Trends, referido anteriormente. Quanto mais pessoas de uma determinada área geográfica fizerem buscas na web sobre palavras e textos referentes a gripe maior a probabilidade de uma epidemia de gripe estar realmente acontecendo no local. Correlações não é garantia de certeza, mas apenas de probabilidades. Neste campo, vão brilhar os algoritmos preditivos. Eles podem correlacionar diversas variáveis e prever que determinados componentes de um veículo vão apresentar falhas. A idéia que o importante é o “que” está acontecendo e não o “porque”.

Na verdade estamos dando os primeiros passos em direção a uma melhor compreensão do poder do Big data. Surgem opiniões ousadas como a de Chris Anderson que afirmou em um artigo “the data deluge makes the scientific method obsolete”. Segundo ele a possibilidade de analisar e correlacionar imensos volumes de dados pode vir a substituir o processo tradicional de descobertas cientificas, baseadas no conceito de causalidade: testarmos hipóteses para provarmos a teoria. Quando o artigo surgiu causou intenso debate mas de qualquer modo é uma nova maneira de ver as coisas. Big data não vai causar o fim das teorias e das pesquisas cientificas como conhecemos, mas com certeza poderá contribuir em muito com novas alternativas. Aliás, especula-se que além da experimentação, teoria e simulação, Big data poderá ser o quarto pilar da ciência. Um livro interessante sobe o assunto, que fala em Big data como o quarto paradigma da ciência pode ser baixado aqui.

Big data é um tsunami em alto mar, mas vai chegar logo. Portanto sugiro começar a estudar e entender melhor o assunto. Estar preparado é melhorar a empregabilidade!

Cezar Taurionhttp://www.litterisconsulting.com.br/
Cezar Taurion é head de Digital Transformation da Kick Ventures e autor de nove livros sobre Transformação Digital, Inovação, Open Source, Cloud Computing e Big Data.

Latest news

Estratégia de comunicação para TI: 5 erros para NÃO cometer

Existem 5 erros comuns que você não pode cometer mais na comunicação da sua empresa. Se você é um MSP que busca o sucesso, acesse e confira!

Inovação e Liderança: Uma Jornada de Transformação Digital

Inovação e Liderança: Uma Jornada de Transformação DigitalNo ritmo acelerado do mundo de hoje, a combinação de inovação e empreendedorismo é fundamental para profissionais que desejam gerar impacto nas organizações. Ao longo da minha carreira, passei de funções técnicas para posições de liderança, e, nesse caminho, aprendi como a tecnologia pode ser uma força transformadora nos negócios.

IDCA – A Força Motriz por Trás da Excelência em Infraestrutura Digital

Em um mundo cada vez mais digital, a Infraestrutura Digital robusta e confiável se tornou a espinha dorsal da sociedade moderna. É nesse cenário crucial que o IDCA (International Data Center Authority) se destaca como líder mundial, moldando o presente e o futuro da indústria. Mas o que torna o IDCA tão especial?

Gerenciador de senhas: saiba como fortalecer a segurança de TI da sua empresa em 2024

Um gerenciador de senhas é uma ferramenta projetada para armazenar, organizar e gerenciar senhas de forma segura. Mas podemos mostrar que ele vai muito além disso!
Publicidade

Software para MSPs: indo além do preço ao procurar pelas ferramentas certas

Confira 5 dicas essenciais para escolher as melhores plataformas para compor o monitoramento e segurança da infraestrutura de TI dos seus clientes

Rápido, seguro e nativo: Chrome chega ao Windows no Snapdragon

"Projetamos o navegador Chrome para ser rápido, seguro e fácil de usar em desktops e dispositivos móveis, e estamos sempre procurando maneiras de levar essa experiência a mais pessoas", disse Hiroshi Lockheimer, Senior Vice President, Google.

Must read

Estratégia de comunicação para TI: 5 erros para NÃO cometer

Existem 5 erros comuns que você não pode cometer mais na comunicação da sua empresa. Se você é um MSP que busca o sucesso, acesse e confira!

Inovação e Liderança: Uma Jornada de Transformação Digital

Inovação e Liderança: Uma Jornada de Transformação DigitalNo ritmo acelerado do mundo de hoje, a combinação de inovação e empreendedorismo é fundamental para profissionais que desejam gerar impacto nas organizações. Ao longo da minha carreira, passei de funções técnicas para posições de liderança, e, nesse caminho, aprendi como a tecnologia pode ser uma força transformadora nos negócios.
- Advertisement -

You might also likeRELATED
Recommended to you