Geralzão sobre vazamento de documentos internos do Google

Documentação interna vazada no GitHub indica que a empresa não foi transparente sobre quais dados são relevantes para a classificação de resultados de pesquisa.
Geralzão sobre vazamento de documentos internos do Google
Arte por Heloisa Botelho

Uma coleção de centenas de documentos internos do Google jogaram luz sobre como a empresa faz o rankeamento de seus resultados de pesquisa, utilizando um conjunto de milhares de fatores e critérios para selecionar os principais links nas buscas de usuários.

Ao todo, 2.569 documentos internos foram vazados no GitHub na última semana de mai.2024, expondo pouco mais de 14 mil parâmetros distintos utilizados pela plataforma, que mostram que o Google coleta muito mais informações do que havia revelado ao público.

Isso fez com que alguns especialistas em SEO (search engine optimization, prática de otimizar um site para melhorar sua visibilidade nos resultados de pesquisa dos mecanismos de busca) acusassem a empresa de ter mentido sobre seus critérios de classificação.

Ainda outro vazamento de um banco de dados interno do Google revela uma série de incidentes de privacidade e segurança, expondo desafios significativos na proteção dos dados dos usuários.


É importante porque...

Forma que Google indexa conteúdo praticamente moldou a maneira como a internet atual funciona

Documentação mostra que Google mentiu ao público sobre fatores relevantes e que navegador Chrome coleta muitas informações sensíveis


Embora os documentos tenham sido expostos no GitHub desde março, apenas na semana passada o especialista em SEO Rand Fishkin foi o primeiro a mencionar essa documentação.

Ele destacou um conjunto de fatores relevantes para o ranqueamento dos resultados que são indexados pelo Google.

O Google confirmou a autenticidade da documentação exposta no GitHub, mas alertou sobre o uso de “informações imprecisas e incompletas”. A empresa disse à imprensa americana que sempre compartilhou informações suficientes e transparentes sobre como sua pesquisa funciona.

Não está claro se alguns critérios têm mais peso do que outros, mas a documentação indica que o Google usa um recurso chamado twiddlers para reclassificar e ajustar continuamente a classificação dos resultados de pesquisa.

Autoridade do domínio e autor

O Google tenta priorizar domínios “com autoridade” — ou seja, aqueles que a empresa determina como confiáveis. No passado, a empresa afirmou que isso não era levado em consideração.

Com isso, novos sites recebem tratamento diferenciado até ganharem reconhecimento ou confirmarem parâmetros de ranqueamento.

Além disso, dados de informações do autor de uma publicação são utilizados pelo Google para posicionar autores considerados confiáveis ou relevantes no topo dos resultados de pesquisa.

Cliques e tempo num site

O Google utiliza dados de cliques e tempo de permanência dos usuários coletados ao longo de 13 meses para influenciar os resultados de pesquisa. Ao longo dos anos, porta-vozes repetidamente negaram que os cliques dos usuários influenciam a classificação dos sites.

Segundo a documentação, o tempo que um usuário permanece em uma página após clicar no link de uma pesquisa no Google parece ser um fator crucial na classificação do site.

Muitos desses dados são coletados e analisados pelo NavBoost, um sistema do Google que coleta dados de comportamento do usuário na plataforma. O sistema foi mencionado publicamente pela primeira vez pelo vice-presidente de Pesquisa do Google, Pandu Nayak, durante seu testemunho em uma audiência do caso do Departamento de Justiça dos Estados Unidos contra o Google, no contexto de acusações de monopólio.

Acusações de monopólio? Entenda aqui

O Google enfrenta nos tribunais dos EUA um processo iniciado pelo Departamento de Justiça, que acusa a gigante de tecnologia de práticas anticompetitivas para criar um monopólio no mercado de mecanismos de busca mundial.

processo, aberto há três anos, alega que a empresa fez acordos significativos com outras empresas para dar destaque ao Google ou tornar seu produto como a ferramenta padrão de buscas em diversos dispositivos — mais notavelmente no navegador Safari, no iPhone.

O Núcleo já fez um geralzão sobre o primeiro mês do julgamento, que está parado por enquanto. As audiências devem retomar em out.24.

Segundo a documentação, o sistema também utiliza o número de pesquisas realizadas por uma determinada palavra-chave para identificar tendências mais longas, considerando também o número de cliques em um resultado.

Esses dados são utilizados pelo Google para avaliar a qualidade geral de um site. O sistema também realiza uma análise geográfica dos cliques por países, estados e municípios, bem como o uso de dispositivos móveis em comparação com desktop.

Google Chrome

O que você faz no navegador Google Chrome, como histórico e quantos cliques uma página recebeu dos usuários em seu navegador, são utilizados na seleção dos resultados pelo Google.

Representantes da empresa afirmaram que não usam nada do Chrome para classificação na pesquisa, mas a documentação contém várias referências aos dados coletados pelo navegador.

Uma delas é uma lista que informa quais links de um domínio aparecem dentro da página principal nos resultados de pesquisa, itens de menu como 'Sobre', 'Equipe', 'Fale conosco' etc. Isso foi interpretado por Fishkin como uma maneira de utilizar o número de cliques no Chrome para determinar as páginas mais populares dentro de um site.

Quer benefícios? Apoie com só R$10/mês e receba vantagens exclusivas.

Muitas previsões

Ao que parece, o Google está tentando prever o “esforço” na criação de conteúdo, distinguindo material gerado por IA e por pessoas, de acordo com fatores identificados na documentação.

Além disso, a Big Tech utiliza modelos de linguagem generativa para antecipar os temas de vídeos antes de classificá-los.

Outros pontos destacados na documentação mostram que a empresa também busca determinar o “quão comercial” uma página é e desenvolveu uma pontuação para detectar se um post é copiado de outra fonte.

Outro vazamento no Google

Além do vazamento da documentação do ranqueamento dos resultados de pesquisa, esta semana a 404media publicou uma reportagem para a qual obteve acesso a um banco de dados interno vazado do Google, revelando uma série de incidentes de privacidade e segurança ao longo de seis anos.

Esses incidentes expõem as práticas da gigante de tecnologia na proteção dos dados pessoais dos usuários. As ocorrências variam desde a coleta acidental de dados de voz de crianças até vazamentos de informações sensíveis, como detalhes de viagens e endereços residenciais de usuários de caronas.

Entre os incidentes divulgados, os sistemas do Google foram encontrados transcrevendo e armazenando números de placas de veículos a partir de fotos do Street View, criando inadvertidamente um banco de dados de informações de placas geolocalizadas.

Via SearchEngineLand (1) (2) (3), Sparktoro, The Verge (1) (2) e 404 Media

Texto Sofia Schurig
Arte Heloisa Botelho
Edição Sérgio Spagnuolo

Receba nossas newsletters e traga felicidade para sua vida.

Não perca nada: você vai receber as newsletters Garimpo (memes e atualidades), Polígono (curadoria de ciência nas redes sociais) e Prensadão (resumo semanal de tudo o que o Núcleo fez). É fácil de receber e fácil de gerenciar!
Show de bola! Verifique sua caixa de entrada e clique no link para confirmar sua inscrição.
Erro! Por favor, insira um endereço de email válido!