Enquanto as águas de março afogam o verão, faço aqui um breve resumo deste agitado mês de fevereiro para o mundo novo do Big Data.
Na primeira semana do mês acompanhei o Summer School on Big Data que deu um panorama nas competências necessárias para entrar no mercado. O curso foi realizado na UFRJ em uma parceria entre a EMC e a Universidade.
Nessa semana chuvosa que precedeu o carnaval carioca, pessoas do meio acadêmico e corporativo acompanharam uma maratona de aulas, palestras e hands-on.
O centro da febre do Big Data é o Hadoop e o curso contou com um dos seus pais e mantenedores, Milind Bhandarkar, cientista chefe da EMC na área de plataformas de machine learning e do Banco de Dados Greenplum. Milind estava na equipe de engenharia do Yahoo quando tudo começou. Em uma concorrida aula, esmiuçou a arquitetura do Hadoop e não se furtou a responder questões sobre o futuro da plataforma.
Um outro ponto importante levantado durante o curso foi a formação de profissionais tanto para a posição de Data Scientist – a profissão mais sexy da década segundo a revista Forbes – quanto para CDO (Chief Data Officer). A UFRJ está empenhada em criar cursos para formar esses profissionais que já são escassos no mundo todo.
Enquanto o jogo das empresas de tecnologia se concentra em promover a formação de profissionais no exterior, a EMC se aproxima do Brasil e cria um centro de pesquisas em Big Data, o primeiro fora dos EUA, no parque tecnológico da UFRJ, com investimentos da ordem de US$100 milhões em cinco anos.
Novas distribuições Hadoop
E o final do mês de fevereiro trouxe mais novidades para o Big Data. Chegou a hora de trocar os jeans surrados por terno e gravata. Esse ritual de passagem aconteceu com o Linux na década de 1990 quando foi abraçado pela IBM e conseguiu seu lugar nos datacenters das corporações, lembrando que tanto o Linux quanto o Hadoop guardam semelhanças, ou seja são um núcleo sólido e confiável em torno do qual se forma um ecossistema de aplicações. O Linux na época deixou de ser visto pelas empresas como um web server barato e ganhou seu lugar nas salas frias rodando bancos de dados relacionais comerciais como Sybase e Oracle.
Hoje o mesmo acontece com o Hadoop que ganhou distribuições lançadas por empresas de peso no mercado corporativo. O primeiro abraço forte foi da Intel anunciando a sua distribuição Hadoop e o segundo da EMC com a sua distribuição Pivotal HD. Startups que já estavam no mercado antes como Cloudera e Hortonworks terão que se reposicionar para conviver ou sobreviver aos novos vizinhos. O processador de SQL Hawk embutido no Pivotal HD já é objeto de um pequeno desgaste com a Cloudera e o seu Impala em virtude de comparações de performance.
A Intel aproxima o Hadoop de seus processadores Xeon oferecendo ganhos em performance e segurança através de criptografia. Já a EMC investe em aplicabilidade rápida do Hadoop nas corporações proporcionando um caminho de transição para seu legado relacional e seus bancos analíticos baseados em soluções OLAP e Datawarehouses diversos. Aliás, o OLAP e os bancos multidimensionais estão com os dias contados, ao menos como os conhecemos hoje.
O Pivotal HD tem no Hawk uma implementação do seu banco Greenplum que por sua vez é baseado no PostgreSql. Ele proporciona o processamento paralelo massivo, acesso ao Hadoop e conta com funções de análise estatística através do MadLib. Graças às suas raízes tem interface para diversas linguagens de programação e possibilita a transição fácil para quem conhece o PostgreSql. Há aí a oportunidade de formar uma infraestrutura de análise que pode cruzar dados do legado relacional com informações não estruturadas armazenadas no Hadoop.
Fora tudo isso, tem também o mercado das soluções in box com hardware e software pré-configurados como o Greenplum appliance que entra na arena para disputar uma fatia do mercado onde atuam produtos com o Netezza da IBM e o Exadata da Oracle. Não é pouco.
Enfim, é um momento em que gestores de TI podem escolher soluções de Big Data abençoados por seus grandes fornecedores. É hora de olhar para o Big Data como solução para redução de custos, é hora de alavancar projetos inovadores de BI baseados em modelos preditivos, é hora de olhar para além do buzzword.
Muito bom, eu li algumas coisas no bigdatabrasil.net e realmente estou muito interessado pelo assunto.
O big data realmente é uma tendencia, e cada dia que passa, vai influenciar mais a vida das pessoas..
Onde trabalho, no Road Solution, temos aplicado varias soluções de Big Data (Hadoop, MongoDB) em nossos softwares.
abs
Olá Hélio, boa noite!
Trabalho na Splunk aqui no Brasil. Estamos várias iniciativas de Big Data em produção por aqui.
A Splunk tem um foco muito forte em Machine Data e gostaria de entender melhor qual o approach das demais empresas no Brasil para o Big Data: dar capacidade de processamento de dados já existentes ou a descoberta de novos dados. Se pensam apenas em dar poder de processamento para aplicações específicas ou foco em repositório “geral” de dados… Enfim, ter um panorama prático do que esta sendo feito!
Inclusive te convido para um café para discutirmos sobre o assunto, pois independente de “marca”, sou um apaixonado pelo tema!!
Abs!