Meta é acusada de engambelar teste de seu novo modelo de IA

Mark Zuckerberg, CEO da Meta, publicou um vídeo no sábado (8.abr.2025) para marcar o lançamento de novos modelos de inteligência artificial que a empresa lançou naquele dia, parte da quarta versão de seu sistema de IA, o Llama.

Mas a empresa está sendo acusada de fazer um pequeno enjambre a fim de ter um melhor resultado em testes de qualidade, após ela mesma revelar ter usado uma versão aprimorada de seu modelo padrão para conseguir pontuações maiores.

NOVOS MODELOS. Foram lançados no fim de semana dois novos modelos sob o Llama 4:

Scout, de menor porte;
Maverick, o modelo padrão, mais comumente usado.

Mais dois estão a caminho:

Reasoning, modelo de raciocínio mais avançado;
Behemoth, o maior LLM, com mais parâmetros de treinamento e maior capacidades, mas que também exige muito mais infraestrutura.

METEU ESSA? Um dos pontos principais do bilionário foi de que os modelos são tão bons que superaram concorrentes em testes de qualidade do chamado LM Arena, nos quais seres humanos avaliam as respostas que mais gostam cuspidas por chatbots de IA.

Segundo Zuckerberg, o modelo Maverick "supera o GPT-4o [da OpenAI] e o Gemini Flash 2 [do Google] em todos os benchmarks".

Mas os testes desse modelo no LM Arena foram realizados com uma versão especificamente "otimizada para conversação" – que não é a disponibilizada publicamente.

Ou seja: o produto testado não é o mesmo disponibilizado para consumidores.

MAS PODE? Aparentemente a Meta não fez nada de errado nos testes, mas não deveria utilizar o resultado para promover um produto alterado, já que não é um indicador preciso de desempenho real daquele que está disponível.

"A interpretação da Meta sobre nossa política não correspondeu ao que esperamos dos provedores de modelos. A Meta deveria ter deixado mais claro que o “Llama-4-Maverick-03-26-Experimental” era um modelo personalizado para otimizar a preferência humana", disse o LM Arena em um post no X.

O QUE A EMPRESA DIZ? Segundo o The Verge, a empresa disse que é tudo do jogo, e que as próprias pessoas poderão customizar seus modelos (dado que o Llama é de código aberto).

“O ‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat que experimentamos e que também apresenta bom desempenho no LMArena”, disse uma porta-voz. “Agora lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos animados para ver o que eles vão construir e ansiosos por seus feedbacks contínuos.”