Enquanto as águas de março afogam o verão, faço aqui um breve resumo deste agitado mês de fevereiro para o mundo novo do Big Data.
Na primeira semana do mês acompanhei o Summer School on Big Data que deu um panorama nas competências necessárias para entrar no mercado. O curso foi realizado na UFRJ em uma parceria entre a EMC e a Universidade.
Nessa semana chuvosa que precedeu o carnaval carioca, pessoas do meio acadêmico e corporativo acompanharam uma maratona de aulas, palestras e hands-on.
O centro da febre do Big Data é o Hadoop e o curso contou com um dos seus pais e mantenedores, Milind Bhandarkar, cientista chefe da EMC na área de plataformas de machine learning e do Banco de Dados Greenplum. Milind estava na equipe de engenharia do Yahoo quando tudo começou. Em uma concorrida aula, esmiuçou a arquitetura do Hadoop e não se furtou a responder questões sobre o futuro da plataforma.
Um outro ponto importante levantado durante o curso foi a formação de profissionais tanto para a posição de Data Scientist – a profissão mais sexy da década segundo a revista Forbes – quanto para CDO (Chief Data Officer). A UFRJ está empenhada em criar cursos para formar esses profissionais que já são escassos no mundo todo.
Enquanto o jogo das empresas de tecnologia se concentra em promover a formação de profissionais no exterior, a EMC se aproxima do Brasil e cria um centro de pesquisas em Big Data, o primeiro fora dos EUA, no parque tecnológico da UFRJ, com investimentos da ordem de US$100 milhões em cinco anos.
Novas distribuições Hadoop
E o final do mês de fevereiro trouxe mais novidades para o Big Data. Chegou a hora de trocar os jeans surrados por terno e gravata. Esse ritual de passagem aconteceu com o Linux na década de 1990 quando foi abraçado pela IBM e conseguiu seu lugar nos datacenters das corporações, lembrando que tanto o Linux quanto o Hadoop guardam semelhanças, ou seja são um núcleo sólido e confiável em torno do qual se forma um ecossistema de aplicações. O Linux na época deixou de ser visto pelas empresas como um web server barato e ganhou seu lugar nas salas frias rodando bancos de dados relacionais comerciais como Sybase e Oracle.
Hoje o mesmo acontece com o Hadoop que ganhou distribuições lançadas por empresas de peso no mercado corporativo. O primeiro abraço forte foi da Intel anunciando a sua distribuição Hadoop e o segundo da EMC com a sua distribuição Pivotal HD. Startups que já estavam no mercado antes como Cloudera e Hortonworks terão que se reposicionar para conviver ou sobreviver aos novos vizinhos. O processador de SQL Hawk embutido no Pivotal HD já é objeto de um pequeno desgaste com a Cloudera e o seu Impala em virtude de comparações de performance.
A Intel aproxima o Hadoop de seus processadores Xeon oferecendo ganhos em performance e segurança através de criptografia. Já a EMC investe em aplicabilidade rápida do Hadoop nas corporações proporcionando um caminho de transição para seu legado relacional e seus bancos analíticos baseados em soluções OLAP e Datawarehouses diversos. Aliás, o OLAP e os bancos multidimensionais estão com os dias contados, ao menos como os conhecemos hoje.
O Pivotal HD tem no Hawk uma implementação do seu banco Greenplum que por sua vez é baseado no PostgreSql. Ele proporciona o processamento paralelo massivo, acesso ao Hadoop e conta com funções de análise estatística através do MadLib. Graças às suas raízes tem interface para diversas linguagens de programação e possibilita a transição fácil para quem conhece o PostgreSql. Há aí a oportunidade de formar uma infraestrutura de análise que pode cruzar dados do legado relacional com informações não estruturadas armazenadas no Hadoop.
Fora tudo isso, tem também o mercado das soluções in box com hardware e software pré-configurados como o Greenplum appliance que entra na arena para disputar uma fatia do mercado onde atuam produtos com o Netezza da IBM e o Exadata da Oracle. Não é pouco.
Enfim, é um momento em que gestores de TI podem escolher soluções de Big Data abençoados por seus grandes fornecedores. É hora de olhar para o Big Data como solução para redução de custos, é hora de alavancar projetos inovadores de BI baseados em modelos preditivos, é hora de olhar para além do buzzword.
Leave a Comment