O seu futuro passa pelo Data Science

Figura -O seu futuro passa pelo Data Science Tenho acompanhado de perto a evolução de Big Data no Brasil. Publiquei um livro sobre o assunto em 2013. Em 2015, saiu a versão digital, revisada. Em 2014, criamos uma startup focada em Data Science, a Litteris Consulting e durante esses anos, em projetos e eventos especializados obtive uma visão razoável do contexto de uso de Big Data. Esse termo, inclusive, não considero adequado, pois passa a impressão de um imenso e estático volume de dados. O valor real dos dados está em seu tratamento e análise, principalmente através de algoritmos descritivos e/ou preditivos. E estamos evoluindo mais e mais em direção a uma computação cognitiva, menos programática, onde o sistema pode aprender por si mesmo. Portanto, talvez seja mais adequado começarmos a falar em Machine Learning ou aprendizado de máquina e Deep Learning. Mas, para todos os efeitos, o termo Big Data ainda está na pauta das conversas e reuniões com executivos e vamos mantê-lo por enquanto.

Mas, discussões terminológicas à parte, é indiscutível que estamos submersos em dados. Nosso mundo está cada vez mais sendo medido, mapeado e registrado em bits. Nossas vidas físicas estão interligadas com a digital e nossa pegada digital, que começa até antes do momento em que nascemos aumenta a cada dia. Deixamos rastros digitais quando usamos nossos automóveis, caminhamos na rua, fazemos buscas no Google, fazemos ligações ou usamos nossos apps, pagamos uma conta com cartão, interagimos com amigos no Facebook, nos divertimos com o Pokémon…

A importância desse novo mundo acelera um novo conjunto de conhecimento que chamamos de Data Science. Dados passam a ser a nova moeda e Data Science é o mecanismo e conhecimento para criar valor a partir dessa moeda. O uso de analítica de dados tem impactos profundos na nossa sociedade. Provavelmente muitos dos pressupostos que estão entranhados no nosso pensamento serão modificados (alguns já estão) à medida que análise de dados for se disseminando na sociedade. E, claro, surge uma nova função, que chamaremos de data scientist. Um artigo icônico de 2102, chamou atenção para esta função, com o título “Data Scientist: The Sexiest Job of the 21st Century”.

Na prática, Data Science é a arte de transformar dados em ações. É a capacidade que temos de responder questões mais complexas, que envolvem uma amplitude de dados muito maior que as armazenadas nos nossos sistemas de gestão. Sim, um ERP por exemplo, registra apenas as transações que os seus clientes fizeram com você. Mas nada sabe sobre as transações que ele não fez com você, mas com seus competidores, diretos ou indiretos. Então, analisando apenas sues registos históricos você pode até comemorar que as compras mostram uma tendência de crescimento e que em breve ele estará comprando o dobro do que comprava no início do ano. Mas não mostra que ele poderá estar quintuplicando as compras com seus concorrentes e na verdade você está perdendo market share! A chave para obter essas respostas é entender e analisar os dados, através de tecnologias, processos, métodos e algoritmos, e gerar ações a partir dos insights, ações estas é que criarão valor para o negócio.

Na verdade, Data Science nos permite deslocar o eixo primordial das decisões da intuição (baseado em hipóteses, pressupostos a até mesmo influência da hierarquia) para indutivo, baseado em padrões descobertos pelas análises de padrões. É uma mudança fundamental no nosso processo de tomada de decisões. Raciocínio indutivo nos permite formular e refinar novas hipóteses e descobrir novos padrões. O modelo da realidade não é mais estático, mas dinâmico, constantemente sendo atualizado e refinado. Novos modelos surgem constantemente!

A importância disso mostra por que começam a surgir estudo e artigos destacando algoritmos. Por exemplo, “Games of the future will be developed by algorithms, not humans” ou “An MIT Algorithm Predicts the Future by Watching TV”.

Portanto, segundo o Gartner: Forget Big Data, the Future is Algorithms. Mas, como começar esta jornada?

Antes de mais nada veja onde você se situa em termos de maturidade em Data Science. Muitas organizações ainda estão envolvidas apenas com o tradicional BI e nem começaram a usar Big Data. Algoritmos mais sofisticados ainda passam longe das suas prioridades. Essas empresas, sem sombra de dúvida, estão ainda na infância em termos de maturidade de Data Science. À medida que a Quarta Revolução Industrial se dissemina pela sociedade, transformando negócios e destruindo setores de indústria por completo, ou seja, avançamos na “data economy”, Data Science torna-se ferramenta essencial. Sem uso contínuo de analítica de dados e algoritmos, as dificuldades das empresas se manterem no mercado ou continuarem relevantes aumentarão exponencialmente. É fácil e imaginar o contexto competitivo: se você toma decisões baseados em intuições, sem dados, e seu concorrente decide baseado na identificação de padrões e análises de dados, qual sairá vitorioso? A probabilidade ele chega primeiro é imensamente maior. Vale a pena ler o relatório da McKinsey, “The need to lead in data and analytics”. Apenas em casos excepcionais a decisão intuitiva pode ganhar. Aqui uma ressalva: não significa que intuição não seja válida. Continua sendo, mas ela ajuda a decidir por um caminho ou por outro, mas não derruba a validade dos dados. Afinal, uma opinião sem dados é apenas uma opinião…

Há uns quinze anos atrás, antes do BI, a as decisões eram baseadas única e exclusivamente na intuição, no instinto. Talvez uma boa uma exposição fosse a vencedora, mesmo que apenas baseada em uma simples opinião. Com BI passou-se a ter mais informações, mas como vimos acima, incompletas. Mas, por incrível que pareça ainda encontramos empresas que nem tem um BI! Ainda está em seus planos futuros!!! Suas decisões são baseadas única e exclusivamente na intuição e experiência de seus executivos. Em um ambiente relativamente estável, até funcionava. Mas em mundo que muda e evolui exponencialmente, o conhecimento de dez anos atrás praticamente não tem mais valor nenhum…os próprios modelos de negócios estão se transformando.

Mas, voltando ao Data Science e aos cientistas de dados. Tornar-se um cientista de dados exige conhecimento e isso pode ser aprendido. Fundamental é a capacidade de saber extrair insights das análises. E explicar como ele chegou a determinadas conclusões. Deve garantir que sua análise foi efetuada em cima de dados válidos (um grande problema nas maiorias das empresas), que os algoritmos são válidos, foram testados e calibrados adequadamente, e claro, expor suas ideias de forma clara, sem entrar nas tecnicidades das fórmulas matemáticas. A análise para ter valor, tem que responder a uma questão de negócios. O que forma então o conhecimento de Data Science? Conhecimento acumulado de ciência da computação, matemática, estatística (cálculos e álgebra linear são fundamentais para que entender as bases dos algoritmos a serem usados) e naturalmente conhecimento de negócios. Fica claro que um profissional com todo este conhecimento é um unicórnio. Um ser mítico, inexistente! Portanto, cada cientista de dados tem seu viés, seja mais técnico seja mais focado em negócios ou ciência da computação. Claro, tem que saber um pouco de tudo, mas tem conhecimento mais aprofundado em um ou dois campos. Vejam este texto bem explicativo: “How to Become a Data Scientist (Part 1/3)”.

Portanto estamos falando, para um projeto de analítica avançada dar certo, de uma equipe de cientistas de dados. A composição da equipe vai variar de empresa para empresa, mas deve evolver expertises em matemática, ciência da computação e negócios. Uma equipe só de matemáticos ou só de experts em ciência da computação pode fazer algoritmos incríveis, mas de pouco valor para o negócio.

A jornada para Data Science, além talentos como cientista de dados, passa também por muitas modificações na própria maneira da empresa operar. Por exemplo, ainda é comum vermos dados fechados em silos, departamentalizados. Um dado “fechado” é apenas uma pequena parecla do universo dos dos dados e mostrará, se analisado, uma visão distorcida e incompleta da realidade. O primeiro passo é eliminar isso. A proposta do conceito de Data Lake visa exatamente acabar com essas barreiras artificiais, criadas pela estrutura departamentlziada das empresas.

Data Lake é um repositório que armazena um grande e variado volume de dados, estruturados e não estruturados. É uma terminologia nova e, portanto, não existe nem consenso quanto ao seu nome. Alguns chamam de Data Hub. Adotamos o Data Lake pois é nome mais utilizado.

Com um Data Lake os diferentes dados são acessados e armazenados em sua forma original e de lá podemos diretamente buscar correlações e insights, como também gerar o tradicional Data Warehouse (DW) para tratar dados estruturados. A diferença em relação ao Data Warehouse como estamos acostumados é que no Data Lake os modelos de dados (ou schemas) não são impostos up-front, mas emergem à medida que trabalhamos com os próprios dados. Lembrando que no DW relacional o modelo de dados ou schema, deve ser previamente definido. No Data Lake o conceito é de “late binding” ou “schema on read”, quando o schema é construído em tempo de query. Chega em boa hora, pois o tradicional modelo de Data Warehouse já existe há uns 30 anos, praticamente sem modificações. Sempre foi baseado numa modelagem chamada de terceira forma normal e que implica em uma única visão da verdade. Funcionou e funciona bem em muitos casos, mas com o conceito de Big Data com volumes cada vez maiores, variedades mais diversas de dados, muitas vezes não estruturadas e a necessidade de ser flexível para fazermos perguntas não planejadas, o modelo DW mostra claramente suas limitações. Não foi projetado para o mundo de hoje.

Para simplificar, um Data Lake pode ser imaginado como uma imensa grid, com bilhões de linhas e colunas. Mas ao contrário de uma planilha estruturada, cada célula deste grid pode conter um dado diferente. Assim uma célula pode conter um documento, outra uma fotografia e uma terceira um parágrafo ou uma única palavra de um texto. Outra contém um tuite ou um post do Facebook. Não importa de onde o dado veio. Ele é apenas armazenado em uma célula. Em outras palavras, um Data Lake é um Data Warehouse não estruturado onde dados de diversas fontes são armazenados.

Um aspecto inovador do conceito é que não tendo a necessidade de definir modelos previamente, eliminamos grande parte do tempo gasto na preparação de dados, como necessário no modelo atual de Data Warehouse. Se reduzirmos significativamente o tempo de preparação, nos concentraremos nas análises. O que, de fato, gera valor. Como os dados são armazenados em sua forma original, sem passar por formatação prévia, podem ser analisados sob diversos contextos. Não estão mais limitados a um único modelo de dados. Na prática é o modelo que empresas como Google, Netflix e Yahoo usam para armazenar e pesquisar imensos e variados volumes de dados.

O segredo do Data Lake é o conceito de metadado (dado sobre dado). Cada dado inserido, ou como alguns dizem, ingerido, no Data Lake possui um metadado de modo a identifica-lo e facilitar sua localização e posterior análise. Como fazer isso? Colocar diversas tags em cada dado, de modo que podemos localizar todos os dados de um determinado conjunto de tags. Uma vantagem do conceito de tagging é que novos dados, de novas fontes, podem ser inseridos e uma vez “tageados” passam a ser conectados aos que já estão armazenados. Não há necessidade de reestruturações e redesenho dos modelos de dados.

Como colocar em prática um Data Lake? A primeira etapa é construir o repositório, onde dos dados são armazenados sem modificações, tageados. A segunda etapa é a que gera valor, e é a que se costuma chamar de destilação dos dados, onde as informações são extraídas e analisadas.

Mas alguns cuidados. À primeira vista Data Lake parece um amontoado de dados sem controle. Não é verdade. É necessário um processo eficaz de governança, que envolva segurança, controle de acesso e aderência a normas de compliance. Também, por ser ainda um conceito novo, está cercado de hypes, discursos ufanistas de fornecedores que o mostram como a solução de todos os problemas de integração de dados. Realmente o apelo é forte, colocar todos os dados em um lugar, e deixar que os usuários, por sua conta, façam suas buscas e correlações, gerando eles mesmos os insights. Mas, todos nós sabemos que entre o discurso e a prática existe um imenso gap. Aprenda com os pioneiros e recomendo ler “Insights From Early Data Lake Adopters”.

Lembre-se, antes de mergulhar em um Data Lake, estude mais o assunto, defina claramente sua estratégia para usá-lo e se faz sentido para sua empresa. Afinal, pato novo não mergulha em lago fundo…

Data Science