A empresa Meta foi acusada de manipular um modelo de linguagem de inteligência artificial (IA) para conseguir resultados melhores do que os verdadeiros em testes. O caso denunciado envolve o recente Llama-4 e a plataforma de benchmarks LMArena.
Tudo começou após a revelação da nova geração de grandes modelos de linguagem (LLM) multimodais pela companhia. A versão intermediária da tecnologia, chamada de Maverick, foi mostrada superando os rivais GPT-4o (da OpenAI) e Google Gemini 2.0 Flash.
Na divulgação, a Meta cita que esse modelo oferece “desempenho líder na indústria e sem precedentes em compreensão de texto e imagem, permitindo a criação de aplicações sofisticadas de IA”. E ele é mesmo poderoso, mas a discrepância em respostas de diferentes versões do que deveria ser um mesmo modelo gerou toda a polêmica.
Como o próprio LMArena confirmou em uma postagem no X (antigo Twitter), a Meta enviou para a plataforma a versão Llama-4-Maverick-03-26-Experimental do serviço. Só que esse é um modelo personalizado, indisponível ao público por enquanto e otimizado para ter certos comportamentos em interações com humanos — exatamente o critério mais usado para qualificar os LLMs pelos avaliadores.
Testes independentes feitos por usuários no X indicam que o modelo experimental tende a usar mais emojis na comunicação e ser bem-humorado, enquanto o Maverick finalizado é mais formal e objetivo na entrega de conteúdos de um prompt.

Agora, o quadro de líderes do LMArena especifica que a versão do Maverick envolvida nos testes é experimental, enquanto o Gemini 2.5 Pro que atualmente lidera a lista e o GPT-4o, que ficou logo atrás no terceiro lugar, já são estáveis e foram disponibilizadas ao público.
O que a Meta diz sobre a trapaça?
A resposta da Meta por enquanto partiu de Ahmad Al-Dahle, chefe da divisão de IA generativa da companhia. O grupo, que também é dono dos serviços Facebook, Threads, WhatsApp e Instagram, ainda não se pronunciou oficialmente.
Também por meio de um post no X, o executivo rejeitou as acusações de manipulação e deu a versão da companhia sobre o que foi registrado nos benchmarks. Segundo ele, o problema está em resultados diferentes do LLM exibidos nestes primeiros momentos, enquanto ele ainda processa pedidos e respostas.
“Ouvimos alegações de que treinamos em conjuntos de teste — o que simplesmente não é verdade, nunca faríamos isso. Entendemos que a qualidade variável que as pessoas estão vendo é necessária até que as implementações sejam estabilizadas”, explica. Segundo Ahdmad, alguns dias seriam necessários até que a qualidade nas respostas seja unificada.
O que é o Llama 4 da Meta?
O Llama 4 é a nova versão dos LLMs multimodais da Meta, capazes de processar e gerar conteúdo envolvendo texto, áudio, imagem e vídeo.
Ela é composta por três variantes: o Scout, que é o modelo mais básico; o Maverick, para processar grandes quantidades de dados e voltada para empresas; e o Behemoth, que pode ser usado para criar até outros modelos de IA tamanha a performance.

Além de fornecer os LLMs para aplicação em produtos e serviços de outras companhias, a Meta também começou a incorporar o Llama 4 em seu próprio ecossistema. Isso significa que logo será possível notar a diferença na interação com a Meta AI, por exemplo, e recursos inteligentes em plataformas como o Instagram.
Do trio, apenas o Behemoth ainda não foi disponibilizado e segue em desenvolvimento, apesar de ter “resultados promissores”. Os demais modelos já podem ser baixados e testados por fãs e desenvolvedores no site da Meta.
Por: Nilton Cesar Monastier Kleina