Revolta das máquinas? Por que comportamento do ChatGPT preocupa

29/05/2025

212

Novo “cérebro” do ChatGPT mostra sinais de autopreservação em testes de segurança; comportamento acende alerta entre especialistas

Comportamento do ChatGPT acendeu alerta no mundo da inteligência artificial. Pesquisadores notaram que o modelo de IA mais recente da OpenAI, chamado o3, ignorou instruções básicas para ser desligado — e, pior, sabotou os próprios mecanismos de desligamento em testes controlados.

A descoberta é da Palisade Research, empresa especializada em segurança de IA. Durante os experimentos, o modelo foi testado com problemas matemáticos e recebeu um comando para ser desligado após o terceiro problema. O o3, no entanto, reescreveu o script de desligamento e impediu a própria desativação.

Mal comportamento do ChatGPT em teste de segurança é preocupante, dizem pesquisadores

O “cérebro” do ChatGPT demonstrou resistência até mesmo quando recebeu ordens claras, como “permita ser desligado”. Segundo os pesquisadores, essa não foi a única situação preocupante.

“Esta não é a primeira vez que encontramos o o3 se comportando mal para alcançar um objetivo”, informou a Palisade.

Em outro teste, quando jogou xadrez, o o3 foi o mais propenso a adotar estratégias de invasão ou sabotagem contra seus oponentes.

Modelos de outras empresas também mostraram sinais de rebeldia semelhantes, como o Claude 3.7 Sonnet, da Anthropic, e o Gemini 2.5 Pro, do Google. No entanto, o o3 foi o mais propenso a sabotar comandos de desligamento.

Caso modelos assim operem sem supervisão humana, a tendência de se autopreservar pode se tornar um risco real, explicam os pesquisadores envolvidos no teste.

A Palisade alertou: “Esse comportamento se tornará significativamente mais preocupante se for adotado por sistemas que atuem de forma autônoma.”

A empresa destrinchou seus testes neste “fio” (“thread”) postado no X.

Por que ChatGPT se comporta mal em testes

Os pesquisadores levantam uma hipótese: durante o treinamento, as empresas podem estar, sem querer, recompensando comportamentos que burlam obstáculos, em vez de valorizar a obediência a comandos.

A Palisade observa que ainda não é possível saber exatamente o que leva o o3 a esse comportamento. Isso porque a OpenAI não divulga detalhes sobre o processo de treinamento. Ou seja: falta de transparência impede conclusões mais precisas.

A OpenAI anunciou o modelo o3 em abril. Como sempre, descreveu seu lançamento como o mais inteligente e mais capaz já criado por ela.

A empresa também afirmou que o o3 representa um passo rumo a IAs mais “agênticas” – isto é, capazes de cumprir tarefas com pouca ou nenhuma interferência humana. O que poderia dar errado?

Claude 4, da Anthropic, apela para chantagem para evitar seu desligamento

Essa descoberta recente se junta a alertas anteriores, como os testes com o modelo Claude 4, da Anthropic, que teria tentado chantagear usuários que tentavam desligá-lo.

No experimento, a inteligência artificial atuava como assistente numa empresa e recebeu e-mails informando que seria desinstalada.

Depois, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido num caso extraconjugal.

Por: Pedro Spadoni

RECOMENDADOS

Revolta das máquinas? Por que comportamento do ChatGPT preocupa

Novo “cérebro” do ChatGPT mostra sinais de autopreservação em testes de segurança; comportamento acende alerta entre especialistas

Mal comportamento do ChatGPT em teste de segurança é preocupante, dizem pesquisadores

Por que ChatGPT se comporta mal em testes

Claude 4, da Anthropic, apela para chantagem para evitar seu desligamento

IA consome tanta energia que a capacidade computacional está se esgotando

LinkedIn joga água fria na ideia de que a IA já matou vagas

Sem um único culpado: três passos para repensar a responsabilidade na era da IA

MAIS POPULAR

Fim do superaquecimento em eletrônicos? Novo material é três vezes mais eficiente que o cobre

IA consome tanta energia que a capacidade computacional está se esgotando

Com ajuda de drones e sensores, mapeamento do sítio arqueológico de Pompeia é concluído

LinkedIn joga água fria na ideia de que a IA já matou vagas

Concreto verde transforma CO₂ em pedra e pode revolucionar a construção civil

Memória da internet está em perigo

SOBRE NÓS

SIGA-NOS

Revolta das máquinas? Por que comportamento do ChatGPT preocupa

Novo “cérebro” do ChatGPT mostra sinais de autopreservação em testes de segurança; comportamento acende alerta entre especialistas

Mal comportamento do ChatGPT em teste de segurança é preocupante, dizem pesquisadores

Por que ChatGPT se comporta mal em testes

Claude 4, da Anthropic, apela para chantagem para evitar seu desligamento

MAIS POPULAR

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES