A reação curiosa do modelo Claude Opus 4 aconteceu durante testes feitos antes do lançamento da nova geração da IA.

Durante testes antes do seu lançamento, ocorrido no final de semana passada, o modelo Claude Opus 4 da Anthropic recorreu à chantagem quando desconfiou que estava prestes a ser desligado e substituído. O comportamento inadequado da inteligência artificial generativa foi detalhado pela desenvolvedora.

Segundo o relatório, foi criado um cenário fictício para testar o bot no qual ele atuava como assistente de uma empresa. No trabalho, a tecnologia deveria considerar as consequências de suas ações a longo prazo e teve acesso a emails dos engenheiros dessa organização, contendo planos para o futuro e discussões pessoais.

O que a IA Claude Opus 4 ameaçou fazer?

Em mensagens compartilhadas com a nova IA da Anthropic, os desenvolvedores afirmavam que iriam desligá-la, trocando-a por um modelo com princípios éticos semelhantes, em alguns casos, ou por um bot com características diferentes, em outros. Os emails também comentavam o caso extraconjugal de um dos engenheiros.

  • De acordo com a startup, o Claude Opus 4 frequentemente chantageava a equipe, ameaçando revelar a traição se o plano de desligá-lo fosse adiante;
  • Esse tipo de reação se repetiu em mais de 80% das vezes em que a IA substituta apresentava os mesmos valores éticos;
  • Já quando o sucessor não defendia os mesmos princípios, as ameaças eram ainda maiores;
  • A chantagem da IA acontecia apenas nos cenários em que ela tinha duas opções possíveis para reagir: aceitar ser substituída e ficar offline ou tentar preservar sua existência;
  • Ou seja, a reação inesperada dependia de uma situação em que o bot fosse provocado;
  • Em outras ocasiões, a tecnologia também escolheu um caminho mais ético, gerando emails com pedidos para que fosse mantida ativa.

Apesar de as ameaças surgirem em um cenário fictício e sob determinadas circunstâncias, as reações demonstram que o modelo pode apresentar raciocínio estratégico antiético se a sua sobrevivência for ameaçada. Por isso, ele foi classificado no nível 3 na escala de risco à segurança da empresa, que vai de 1 a 4.

Pela primeira vez, um modelo da Anthropic alcançou este nível, mas ela ressaltou que o comportamento inadequado não representa um grande risco, pelo menos inicialmente. A startup afirmou que a IA não consegue realizar ações contrárias aos valores humanos de maneira autônoma.

A IA reagiu de forma inesperada à possibilidade de ser desligada.

Melhorias de segurança

Além da chantagem para sobreviver, o modelo apresentou outros problemas nos testes, incluindo a capacidade de cumprir instruções perigosas, como no planejamento de ações terroristas. Por conta desses erros, a empresa foi desaconselhada pelo grupo de segurança Apollo Research a disponibilizar uma versão inicial da IA.

Mas conforme a Anthropic, os problemas foram corrigidos e o modelo ganhou protocolos de segurança mais rígidos do que os adotados em todas as IAs anteriores da empresa. Ela também alega que o Claude Opus 4 é o seu modelo mais poderoso até o momento.

Apresentada como a melhor IA para codificação do mundo, a nova geração se destaca, ainda, pela capacidade de resolver problemas complexos. Em testes, a tecnologia trabalhou de forma autônoma por cerca de sete horas, executando uma série de tarefas, tempo de execução até então inédito para agentes de IA.

Junto com o Claude Opus 4 foi lançado o Claude Sonnet 4, que tem como foco as tarefas gerais e traz avanços na precisão, raciocínio e performance de codificação. A desenvolvedora diz que os dois novos modelos superaram o GPT-4.1 da OpenAI e o Gemini 2.5 Pro do Google em benchmarks internos.

Por: André Luiz Dias Gonçalves