Entenda os motivos do Big Data ser destaque

Entenda os motivos do Big Data ser destaque entre os CIOs Um tema que realmente está entre os Top 3 para os CIOs e profissionais de TI é Big data. Por isso, volta e meia retorno ao assunto. Big data é muito mais que um imenso volume de dados. Por isso o nome não me parece muito adequado. O valor de Big data vem da sua dinâmica, provocada pela análise dos dados ou seja, dos dados falarem por sim mesmo. Dados simplesmente armazenados não tem valor.

Big data não é apenas tecnologia. Tentar simplificar vendendo a idéia que Big data se materializa na empresa simplesmente comprando tecnologias do fornecedor A ou B não cria valor para o negócio, apenas gera frustrações bem grandes. Big data embute mudanças na maneira de pensarmos dados. Por exemplo, vamos olhar a variável que nos parece mais simples, que é volume. Quando saímos do pensamento baseado na escassez para abundância de dados devemos pensar diferente. Pela dificuldade e limitação tecnológica nós acabamos construindo um modelo mental de escassez de dados. Com isso refinamos uma série de práticas como análises estatísticas por amostragem. A partir de uma pequena amostra de dados, extrapolamos para um cenário mais amplo. Com o tempo refinamos os modelos e hoje eles são bastante confiáveis. Entretanto, tem algumas lacunas, como uma precisão que depende muito da amostragem. Por exemplo uma pesquisa de opinião baseada em uma amostra randômica de usuários de telefones fixos embute um viés: se a coleta for feita no horário de trabalho, quem vai atender não necessariamente representa a opinião das pessoas que trabalham fora. Podem ter um ponto de vista bem diferente das que podem atender o telefone doméstico durante o dia. Além disso, se quisermos detalhar um pouco mais a pesquisa, um universo de amostras pequeno, como fazemos hoje, não terá representatividade estatística. Um exemplo? As pesquisas de intenção de voto. Geralmente pega-se umas 2.000 pessoas e tem-se um quadro geral. Mas se quisermos detalhar ao ponto de queremos saber a intenção e jovens entre 18 e 25 anos do estado da Paraíba a amostragem será insuficiente. Estamos presos às perguntas iniciais e não podemos sair delas. Mas com volumes grandes o pensamento é outro. Quando a variável passa a ser “ N=todos” podemos fazer granularizações inimagináveis no modelo de escassez. Podemos identificar tendências e descobrir correlações não pensadas antes. Podemos fazer novas perguntas e descer a novos níveis de segmentação. Saímos para um “mind set” mais oportunístico ou seja, aproveitamos oportunidades de fazer perguntas não pensadas antes de analisar os dados.

Outra característica interessante que afeta nossa maneira de olhar os dados é que volumes grandes não demandam precisão extra de cada dado. Aliás, já fazemos isso hoje. Pensemos em um numero grande como o PIB de um país. Não detalhamos os centavos, mas ficamos restritos aos grandes números e as tendências que eles apontam. Recomendo ler o paper “ If you have too much data, then “good enough” is Good Enough”. Mostra a mudança no pensar exatidão dos dados versus a tendência que os dados nos apontam. O exemplo típico é a conceituação do Hadoop. Ao usá-lo podemos aceitar que os dados manuseados não serão 100% exatos, mas o volume será grande o suficiente para apontar tendências. Claro, não se imagina substituir o banco de dados relacional que lida com dados precisos e exatos como nossa conta corrente bancária pelo Hadoop, mas mostra que podemos de forma complementar, trabalhar com as diversas tecnologias, cada uma no seu espaço.

Outra grande oportunidade que Big data nos abre é conseguirmos fazer correlações entre dados, à primeira vista, sem aparente conexões. Um exemplo tradicional é o da Amazon e sua estratégia de recomendações, baseada na análise de quem compra determinado livro tenderá a comprar outros. Como isso é feito? Vale a pena dar uma olhada no algoritmo basico usado pela Amazon, conhecido como “ item-to-item collaborative filtering”. Na prática a adoção deste modelo revolucionou o e-commerce e algoritmos similares passaram a fazer parte do cerne de qualquer sistema de comércio eletrônico que se preze. O principio básico é conhecer o “que” e não o “porque”. Com correlações nós passamos a trabalhar não mais com certezas, mas com probabilidades. Com volumes muito grandes, as possibilidades de acerto tornam-se bem mais significativas. Há uma mudança de pensar neste conceito. Saímos do modelo “hypothesis-driven” onde tentamos provar nossa hipótese analisando dados específicos com perguntas especificas, para “ data-driven” onde submetemos um imenso e variado volume de dados a algoritmos de correlação. Neste último podemos encontrar resultados inesperados e a partir deles nos inspirarmos a formular novas perguntas. O fator chave passa a ser fazer perguntas certas a cada nova análise. Um cuidado a evitar é o fenômeno que chamamos de “Big Noise” com volumes de dados muito grandes, mas que não nos trazem correlações efetivas.

Eventos tech no Brasil Agenda monitorada pelo Virtual Arena AI

Ver agenda completa →

TDC Florianópolis 2026 📅 22 jul. 📍 Florianópolis, Brazil ✓ Confirmado Inteligência Artificial
DevOpsDays Rio de Janeiro 2026 📅 15 ago. 📍 Rio de Janeiro, Brazil ✓ Confirmado Plataformas
DevOpsDays Curitiba 2026 📅 22 ago. 📍 Curitiba, Brazil ✓ Confirmado Plataformas

Um outro exemplo de uso de correlação de dados é o produto University Pages do Linkedin, que propõe analisar como carreiras e universidades se interconectam. Por exemplo, se você quiser seguir determinada carreira qual seria a melhor universidade a cursar? Recomendo ver o texto sobre o projeto, inclusive com detalhes das tecnologias utilizadas.

Correlacionando dados podemos desenvolver algoritmos preditivos, que buscam identificar eventos antes que eles aconteçam. Um exemplo de uso é a manutenção de equipamentos como aeronaves, automóveis ou turbinas de aviões. O princípio basico é que quando as coisas acontecem ( ou quebram)não são de imediato, mas o problema evolui gradualmente com o tempo. Coletando dados de sensores podemos fazer análises correlacionais para identificar determinados padrões que sinalizam futuros problemas. Quanto mais cedo uma provável anormalidade é detectada, mais eficiente é o processo de manutenção. Muito mais eficiente que a manutenção preventiva que nos indica uma troca de óleo cada 5.000 kms. Mas a maneira de dirigir, as estradas que o veiculo trafega e as temperaturas que está exposto afetam de forma signficativa este tempo. Com algoritmos preditivos pode-se identificar que um determinado veiculo deve trocar o óleo a 4.000 kms e o outro a 6.500 kms.

Big data traz uma outra mudança fundamental em seu bojo. A substituição do modelo baseado em intuição por “data-driven”. A intuição funciona (e não vai deixar de existir) mas é baseado na idéia que existe causalidade em tudo. Muitas vezes acreditamos que tal efeito é devido a uma determinada causa, pelo simples fato que não tinhamos outras variáveis para analisar. Hoje temos e provavelmente muitas das nossas idéias de causa-efeito que nos guiavam não serão mais válidas….

Se quisermos ter sucesso em Big data não devemos começar pela tecnologia. O primeiro passo é identificar as oportunidades de valor, ter as expertises necessárias, saber quais e onde estão os dados e só então selecionar a tecnologia. E é um processo contínuo e evolutivo. Novas correlações de dados surgirão e sempre faremos novas e instigantes perguntas. Afinal é assim que a sociedade evolui: sendo curiosa e explorando novos caminhos.

[Crédito da Imagem: Big Data – ShutterStock]

big data