Cloud Computing

Ξ Deixe um comentário

Termo “Big Data” desperta atenção

publicado por Cezar Taurion

O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos compreendido ainda. Com uma rapida pesquisa ao Google identifiquei pelo menos uma dúzia de definições.

Neste post vou falar um pouco sobre o assunto e debater alguns desafios que temos pela frente para colocarmos projetos de Big Data em ação. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data = volume + variedade + velocidade de dados. Volume porque além dos dados gerados pelos sistemas transacionais, temos a imensidão de dados gerados pelos objetos na Internet das Coisas, como sensores e câmeras, e os gerados nas midias sociais via PCs, smartphones e tablets. Variedade porque estamos tratando tanto de dados textuais estruturados como não estruturados como fotos, videos, emails e tuites. E velocidade, porque muitas vezes precisamos responder aos eventos quase que em tempo real. Ou seja estamos falando de criação e tratamento de dados em volumes massivos. Outro desafio: criar e tratar apenas de dados históricos, com os veteranos Data Warehouse e as tecnologias de BI (Business Intelligence) começam a se mostrar lentos demais para a velocidade com que os negócios precisam tomar decisões. Aliás, o termo BI ou Business Intelligence já fez mais de 50 anos. Foi cunhado por Hans Peter Luhn,  pesquisador da IBM em um artigo escrito nos idos de 1958.

Quando falamos em volume, os numeros são gigantescos. Se olharmos globalmente estamos falando em zetabytes ou 10²¹ bytes. Grandes corporações armazenam multiplos petabytes e mesmo pequenas e médias empresas trabalham com dezenas de terabytes de dados. Este volume de dados tende a crescer geométricamente e em mundo cada vez mais competitivo e rapido, as empresas precisam tomar decisões baseadas não apenas em palpites, mas em dados concretos. Assim, para um setor de marketing faz todo sentido ter uma visão 360° de um cliente, olhando não apenas o que ele comprou da empresa, como registrado no ERP mas o que ele pensa e diz sobre a empresa, como o faz pelo Facebook e Twitter.

Hoje já é consenso que dados são os recursos naturais da nova revolução industrial. Na atual sociedade industrial ter apenas recursos naturais como minério e exportá-los de forma bruta, importando em troca produtos manufaturados com eles não garante a competitividade de um país no longo prazo. O importante é a tecnologia e o conhecimento que cria produtos manufaturados. Afinal um quilo de satélite vale imensamente mais que um quilo de minério de ferro.
Fazendo um paralelo, na sociedade da informação é crucial saber tratar os dados na velocidade adequada. Dados não tratados e analisados em tempo hábil são dados inúteis, pois não geram informação. Dados passam a ser ativos corporativos importantes e como tal podem e deverão ser quantificados econômicamente.

Big Data representa um desafio tecnológico pois demanda atenção à infraestrutura e tecnologias analíticas. O processamento de massivos volumes de dados pode ser facilitado pelo modelo de computação em nuvem, desde, é claro, que este imenso volume não seja transmitido repetidamente via Internet. Só para lembrar, os modelos de cobrança pelo uso de nuvens públicas tendem a gerar processamentos muito baratos mas tornam caro massivas transmissões de dados.

A principal base tecnológica para Big Data Analytics é o Hadoop e os bancos de dados NoSQL, onde No significa Not Only SQL, ou seja, usa-se bases de dados SQL e não SQL. A importância do “Not Only” SQL explica-se pelo fato do modelo relacional ser baseado no fato que, na época de sua criação, início dos anos 70, acessar, categorizar e normalizar dados era bem mais fácil que hoje. Praticamente  não existiam dados não estruturados circulando pelos computadores da época. Também não foi desenhado para escala massiva nem processamento extremamente rapido. Seu objetivo basico era possibilitar a criação de queries que acessacem bases de dados corporativas e portanto estruturadas. Para soluções Big Data tornam-se necessárias varias tecnologias, desde bancos de dados SQL a softwares que utilizem outros modelos, que lidem melhor com documentos, grafos, processamento paralelo, etc.

A complexidade do Big Data vem à tona quando lembramos que não estamos falando apenas de armazenamento e tratamento analítico de massivos volumes de dados, mas de revisão ou criação de processos que garantam a qualidade destes dados e de processos de negócio que usufruam dos resultados obtidos. Portanto Big Data não é apenas um debate sobre tecnologias, mas principalmente como os negócios poderão usufruir da montanha de dados que está agora à sua disposição. Aí emerge a questão da integração: como integrar bases de dados estruturadas e não estruturadas, com diversos softwares envolvidos?

Big Data abre oportunidades profissionais bem amplas. Na minha opinião existe espaço para dois perfis profissionais, um mais voltado a negócios, qualificados para tratar analiticamente as informações geradas por estas imensas bases de dados e outro com viés mais técnico, ou Data Architect (http://en.wikipedia.org/wiki/Data_architect) .
Pelo viés dos negócios, um artigo interessante que foi publicado há poucos meses pelo Wall Street Journal, edição brasileira, aponta como problema a escassez de talentos. O artigo “MBAs agora preparam mineiros de dados” pode ser acessado em  http://online.wsj.com/article/SB10001424053111903480904576510934018741532.html. O artigo diz que muitas empresas americanas começaram a procurar profissionais que saibam interpretar os números usando a análise de dados, também conhecida como inteligência empresarial. Mas, encontrar profissionais qualificados tem se mostrado difícil. Daí que  várias faculdades americanas, como a Faculdade de Pós-Graduação em Administração da Universidade Fordham e a Faculdade de Administração Kelley, da Universidade de Indiana, começam a oferecer disciplinas eletivas, cursos de extensão e mestrados em análise de dados. Já o Data Architect deve lidar com tecnologias SQL e NoSQL, conhecer profundamente conceitos como stream processing e Event Driven Architecture (EDA) e portanto ter capacidade de desenhar estratégias para manusear e analisar massivos volumes de dados de formatos diferentes quase em tempo real.

A idéia de stream processing ou stream computing é fantástica. É um novo paradigma. No modelo de data mining tradicional uma empresa filtra dados dos seus vários sistemas e após criar um data warehouse, dispara “queries”. Na prática faz-se garimpagem em cima de dados estáticos, que não refletem o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás. Com stream computing esta garimpagem é efetuada em tempo real. Em vez de disparar queries em cima de uma base de dados estática, coloca-se uma corrente contínua de dados (streaming data) atravessando um conjunto de queries. Podemos pensar em inúmeras aplicações, sejam estas em finanças, saúde e mesmo manufatura. Vamos ver este último exemplo: um projeto em desenvolvimento com uma empresa de fabricação de semicondutores monitora em tempo real o processo de deteção e classificação de falhas. Com stream computing as falhas nos chips sendo fabricados são detetados em minutos e não horas ou mesmo semanas. Os wafers defeituosos podem ser reprocessados e mais importante ainda, pode-se fazer ajustes em tempo real nos próprios processos de fabricação.

Quanto a EDA, pode-se começar a estudar o assunto acessando seu verbete na Wikipedia em http://en.wikipedia.org/wiki/Event-driven_architecture.

Big Data deve começar a aparecer na tela do radar dos CIOs em breve. Aliás, já aparece no canto da tela de um ou outro CIO, e provavelmente em alguns anos já estará sendo um dos temas mais prioritários das tradicionais listas de “tecnologias do ano” feitas pelos analistas de indústria. Portanto, é bom estar atento à sua evolução e eventualmente começar a colocar em prática algumas provas de conceito.

Autor

Cezar Taurion é head de Digital Transformation da Kick Ventures e autor de nove livros sobre Transformação Digital, Inovação, Open Source, Cloud Computing e Big Data.

Cezar Taurion

Comentários

You must be logged in to post a comment.

Busca

Patrocínio

Publicidade



Siga-nos!

Newsletter: Inscreva-se

Para se inscrever em nossa newsletter preencha o formulário.

Artigos Recentes