Vazamento de dados do Google revela os segredos do algoritmo de buscas e mostra o que realmente funciona

Mais de 2,5 mil documentos internos da engenharia do Google foram vazados na última semana, contendo mais de 14 mil funcionalidades e milhares de detalhes sobre os dados que a maior empresa de buscas coleta e utiliza em seus algoritmos – a tal “fórmula secreta” para rankear sites e aparecer no topo das buscas do Google. Os documentos foram vazados na plataforma de hospedagem de código-fonte e arquivos GitHub e enviados pelo leaker Erfan Azimi ao especialista Rand Fishkin, que publicou as informações mais quentes sobre os materiais no blog SparkToro.

O vazamento de informações desmistifica uma série de declarações feitas nos últimos anos de que o Google utiliza determinadas variáveis para ranquear os sites. Entre as milhares de páginas, que funcionam como um repositório de informações, é possível definir com mais clareza quais dados são realmente usados para classificar o conteúdo da pesquisa, e pode-se ter uma ideia de quais informações a comunidade de SEO já imaginava que eram reais — mas o Google dizia que não.

CTR foi comprovado
Uma das variáveis mais importantes que apareceu no vazamento é a taxa de cliques (CTR, na sigla em inglês). Por exemplo, quando um site está no terceiro lugar na página de buscas e ele tem mais cliques do que os que estão no primeiro ou no segundo, o CTR dele é maior e o algoritmo do Google pode colocá-lo na segunda ou na primeira posição — algo que o Google nunca confirmou ser real, e agora foi comprovado pelos documentos.

Chrome fornece dados
O Google também utiliza dados de comportamento do usuário, como quanto tempo foi gasto na página de busca, se um resultado foi clicado ou não, se o usuário voltou para página de busca depois de clicar em algum resultado, entre outros. Dessa forma, pode-se afirmar que o Google usa dados do Chrome, como tempo de carregamento da página, experiência do usuário e estabilidade da página durante a navegação, para determinar a qualidade de um determinado conteúdo.

Eventos tech no Brasil Agenda monitorada pelo Virtual Arena AI

Ver agenda completa →

TDC Florianópolis 2026 📅 22 jul. 📍 Florianópolis, Brazil ✓ Confirmado Inteligência Artificial
DevOpsDays Rio de Janeiro 2026 📅 15 ago. 📍 Rio de Janeiro, Brazil ✓ Confirmado Plataformas
DevOpsDays Curitiba 2026 📅 22 ago. 📍 Curitiba, Brazil ✓ Confirmado Plataformas

Autoridade de sites em jogo
A companhia também utiliza uma métrica chamada site authority para determinar a autoridade de um site frente a um assunto e a outros sites Com o vazamento dessa informação, torna-se possível manipular, por exemplo, a quantidade de links que apontam para um site para aumentar a sua reputação frente a outros – algo que o Google sempre quis evitar que fosse feito, mas que a indústria de SEO já faz há mais de 20 anos.

Outra informação que quem trabalha com SEO há muitos anos já percebeu, é que existe um fator chamado de sandbox para sites novos, ou seja, um período em que esses sites são rebaixados e colocados em uma avaliação à parte para monitorar seu comportamento antes de liberá-los para o público geral. Sempre se imaginou que sites recém-lançados passavam por uma verificação manual, e agora veio a confirmação de que o sandbox realmente existe.

É confiável ou não?
Com a enorme quantidade de sites presentes na ferramenta de busca, o Google criou as chamadas white lists, que são listas de sites confiáveis que terão um tratamento preferencial entre determinadas buscas. Isso pôde ser verificado durante a pandemia da Covid-19, por exemplo, momento no qual informações de saúde confiáveis (na visão do Google) eram colocadas em evidência. Outro exemplo foi quando a solução do Google Shopping chegou ao Brasil anos atrás e o Google derrubou a relevância do Buscapé, na época um dos maiores comparadores de preços, para que os usuários gradualmente adotassem a nova solução da empresa. Isso nunca foi oficialmente confirmado, mas quem trabalha na área sabe que isso aconteceu.

Criação de conteúdo importa
Marcas que investem em produção de conteúdo, branding e relações públicas tendem a ser melhor percebidas e favorecidas nos resultados do Google. O próprio vazamento deixou claro que artigos assinados por pessoas reconhecidas e com boa reputação são considerados como um fator de classificação, além, é claro, da importância da marca – quanto mais ela é citada, quanto mais ela é famosa e quanto mais ela é conhecida no universo digital, mais ela tende a ter performance por ter esse reconhecimento.

O que esse vazamento confirmou?
No fim das contas, os documentos serviram para comprovar que uma série de hipóteses e suposições que a indústria de SEO fazia sobre o Google estavam corretas. Mas por que o Google mentia sobre eles e negava esses fatores?

A resposta parece óbvia: para que não houvesse manipulação dos dados.

A partir deste vazamento, uma das coisas que pode ocorrer é que as ferramentas que geram cliques artificiais no Google se popularizem e as pessoas comecem a comprar cliques em seus resultados para subir posições no Google. Essa ação passará a consumir muitos recursos dos servidores do Google e vai fazer com que uma série de robôs façam buscas automatizadas, que tendem a crescer em volume e intensidade. Isso já ocorre, mas irá se intensificar.

Essa possibilidade deve ser observada de perto pelo Google, que tende a ficar mais atento às ações feitas por meio de ferramentas de manipulação.

Mas o que já era sabido e sempre foi recomendado se mostrou de fato o mais importante: a melhor maneira de ter consistência no ranqueamento no Google é apostar em uma estratégia de conteúdo consistente, com larga produção de conteúdo especializado, que aumente a relevância da marca e que traga resultados de forma adequada.

Quanto mais conteúdo bom uma marca produz, melhores posições ela ocupa e gera maior volume de acessos, que levam a mais leads e mais vendas.

Nada de novo, efetivamente. E essa é uma ótima notícia!