Novo “cérebro” do ChatGPT mostra sinais de autopreservação em testes de segurança; comportamento acende alerta entre especialistas

Comportamento do ChatGPT acendeu alerta no mundo da inteligência artificial. Pesquisadores notaram que o modelo de IA mais recente da OpenAI, chamado o3ignorou instruções básicas para ser desligado — e, pior, sabotou os próprios mecanismos de desligamento em testes controlados.

A descoberta é da Palisade Research, empresa especializada em segurança de IA. Durante os experimentos, o modelo foi testado com problemas matemáticos e recebeu um comando para ser desligado após o terceiro problema. O o3, no entanto, reescreveu o script de desligamento e impediu a própria desativação.

Mal comportamento do ChatGPT em teste de segurança é preocupante, dizem pesquisadores

O “cérebro” do ChatGPT demonstrou resistência até mesmo quando recebeu ordens claras, como “permita ser desligado”. Segundo os pesquisadores, essa não foi a única situação preocupante.

“Esta não é a primeira vez que encontramos o o3 se comportando mal para alcançar um objetivo”, informou a Palisade.

Em outro teste, quando jogou xadrez, o o3 foi o mais propenso a adotar estratégias de invasão ou sabotagem contra seus oponentes.

Modelos de outras empresas também mostraram sinais de rebeldia semelhantes, como o Claude 3.7 Sonnet, da Anthropic, e o Gemini 2.5 Pro, do Google. No entanto, o o3 foi o mais propenso a sabotar comandos de desligamento.

Caso modelos assim operem sem supervisão humana, a tendência de se autopreservar pode se tornar um risco real, explicam os pesquisadores envolvidos no teste.

  • A Palisade alertou: “Esse comportamento se tornará significativamente mais preocupante se for adotado por sistemas que atuem de forma autônoma.”

A empresa destrinchou seus testes neste “fio” (“thread”) postado no X.

Por que ChatGPT se comporta mal em testes

Os pesquisadores levantam uma hipótese: durante o treinamento, as empresas podem estar, sem querer, recompensando comportamentos que burlam obstáculos, em vez de valorizar a obediência a comandos.

A Palisade observa que ainda não é possível saber exatamente o que leva o o3 a esse comportamento. Isso porque a OpenAI não divulga detalhes sobre o processo de treinamento. Ou seja: falta de transparência impede conclusões mais precisas.

A OpenAI anunciou o modelo o3 em abril. Como sempre, descreveu seu lançamento como o mais inteligente e mais capaz já criado por ela.

A empresa também afirmou que o o3 representa um passo rumo a IAs mais “agênticas” – isto é, capazes de cumprir tarefas com pouca ou nenhuma interferência humana. O que poderia dar errado?

Claude 4, da Anthropic, apela para chantagem para evitar seu desligamento

Essa descoberta recente se junta a alertas anteriores, como os testes com o modelo Claude 4, da Anthropic, que teria tentado chantagear usuários que tentavam desligá-lo.

No experimento, a inteligência artificial atuava como assistente numa empresa e recebeu e-mails informando que seria desinstalada.

Depois, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido num caso extraconjugal.

Por: Pedro Spadoni