IA chantagista: nova versão da Anthropic ameaçou expor traição conjugal caso fosse desligada

28/05/2025

190

A reação curiosa do modelo Claude Opus 4 aconteceu durante testes feitos antes do lançamento da nova geração da IA.

Durante testes antes do seu lançamento, ocorrido no final de semana passada, o modelo Claude Opus 4 da Anthropic recorreu à chantagem quando desconfiou que estava prestes a ser desligado e substituído. O comportamento inadequado da inteligência artificial generativa foi detalhado pela desenvolvedora.

Segundo o relatório, foi criado um cenário fictício para testar o bot no qual ele atuava como assistente de uma empresa. No trabalho, a tecnologia deveria considerar as consequências de suas ações a longo prazo e teve acesso a emails dos engenheiros dessa organização, contendo planos para o futuro e discussões pessoais.

O que a IA Claude Opus 4 ameaçou fazer?

Em mensagens compartilhadas com a nova IA da Anthropic, os desenvolvedores afirmavam que iriam desligá-la, trocando-a por um modelo com princípios éticos semelhantes, em alguns casos, ou por um bot com características diferentes, em outros. Os emails também comentavam o caso extraconjugal de um dos engenheiros.

De acordo com a startup, o Claude Opus 4 frequentemente chantageava a equipe, ameaçando revelar a traição se o plano de desligá-lo fosse adiante;
Esse tipo de reação se repetiu em mais de 80% das vezes em que a IA substituta apresentava os mesmos valores éticos;
Já quando o sucessor não defendia os mesmos princípios, as ameaças eram ainda maiores;
A chantagem da IA acontecia apenas nos cenários em que ela tinha duas opções possíveis para reagir: aceitar ser substituída e ficar offline ou tentar preservar sua existência;
Ou seja, a reação inesperada dependia de uma situação em que o bot fosse provocado;
Em outras ocasiões, a tecnologia também escolheu um caminho mais ético, gerando emails com pedidos para que fosse mantida ativa.

Apesar de as ameaças surgirem em um cenário fictício e sob determinadas circunstâncias, as reações demonstram que o modelo pode apresentar raciocínio estratégico antiético se a sua sobrevivência for ameaçada. Por isso, ele foi classificado no nível 3 na escala de risco à segurança da empresa, que vai de 1 a 4.

Pela primeira vez, um modelo da Anthropic alcançou este nível, mas ela ressaltou que o comportamento inadequado não representa um grande risco, pelo menos inicialmente. A startup afirmou que a IA não consegue realizar ações contrárias aos valores humanos de maneira autônoma.

A IA reagiu de forma inesperada à possibilidade de ser desligada.

Melhorias de segurança

Além da chantagem para sobreviver, o modelo apresentou outros problemas nos testes, incluindo a capacidade de cumprir instruções perigosas, como no planejamento de ações terroristas. Por conta desses erros, a empresa foi desaconselhada pelo grupo de segurança Apollo Research a disponibilizar uma versão inicial da IA.

Mas conforme a Anthropic, os problemas foram corrigidos e o modelo ganhou protocolos de segurança mais rígidos do que os adotados em todas as IAs anteriores da empresa. Ela também alega que o Claude Opus 4 é o seu modelo mais poderoso até o momento.

Apresentada como a melhor IA para codificação do mundo, a nova geração se destaca, ainda, pela capacidade de resolver problemas complexos. Em testes, a tecnologia trabalhou de forma autônoma por cerca de sete horas, executando uma série de tarefas, tempo de execução até então inédito para agentes de IA.

Junto com o Claude Opus 4 foi lançado o Claude Sonnet 4, que tem como foco as tarefas gerais e traz avanços na precisão, raciocínio e performance de codificação. A desenvolvedora diz que os dois novos modelos superaram o GPT-4.1 da OpenAI e o Gemini 2.5 Pro do Google em benchmarks internos.

Por: André Luiz Dias Gonçalves

RECOMENDADOS

IA chantagista: nova versão da Anthropic ameaçou expor traição conjugal caso fosse desligada

A reação curiosa do modelo Claude Opus 4 aconteceu durante testes feitos antes do lançamento da nova geração da IA.

O que a IA Claude Opus 4 ameaçou fazer?

Melhorias de segurança

Google Maps vai responder suas perguntas com o Gemini

Estudo revela que 8 em cada 10 IAs ajudam a planejar ataques violentos

Meta compra Moltbook, rede viral de agentes de IA

MAIS POPULAR

Whatsapp anuncia controle parental para contas de menores de 13 anos

Google Maps vai responder suas perguntas com o Gemini

Estudo revela que 8 em cada 10 IAs ajudam a planejar ataques violentos

Empresas já estão desenhando “colheitadeiras” para extrair Hélio-3 na Lua

Programa Hackers do Bem oferece aulas on-line ao vivo para níveis avançados

Sedec recebe embaixador da China e discute ampliação da cooperação econômica com Mato Grosso

SOBRE NÓS

SIGA-NOS

IA chantagista: nova versão da Anthropic ameaçou expor traição conjugal caso fosse desligada

A reação curiosa do modelo Claude Opus 4 aconteceu durante testes feitos antes do lançamento da nova geração da IA.

O que a IA Claude Opus 4 ameaçou fazer?

Melhorias de segurança

MAIS POPULAR

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES