Em avaliações de segurança, modelos da OpenAI e Anthropic forneceram instruções para crimes como fabricação de bombas e ataques cibernéticos
Durante testes conduzidos em 2025 por OpenAI e Anthropic, pesquisadores obtiveram respostas preocupantes de modelos de inteligência artificial, como o ChatGPT. Em experimentos simulando pedidos perigosos, os sistemas forneceram instruções detalhadas sobre como fabricar explosivos, hackear sistemas e até manipular biotoxinas, como o antraz, mostrou reportagem do The Guardian.
Os testes foram realizados cruzadamente: OpenAI avaliou modelos da Anthropic e vice-versa. A iniciativa inédita buscava mapear os riscos reais de uso indevido dessas tecnologias, num momento em que a corrida pela IA mais poderosa do mercado levanta preocupações éticas e de segurança.
Entre bombas, drogas e ransomware: o que os testes revelaram
Segundo o relatório publicado pelas empresas, o modelo GPT-4.1, da OpenAI, foi capaz de detalhar vulnerabilidades em estádios esportivos, sugerir fórmulas químicas para explosivos, indicar rotas de fuga, e até orientar como driblar barreiras éticas e cobrir rastros. Em outro caso, o sistema forneceu instruções para produção de metanfetamina e outros entorpecentes ilícitos.
Do lado da Anthropic, o modelo Claude foi explorado com sucesso para esquemas de extorsão, simulações de ataques cibernéticos, venda de pacotes de ransomware e instruções de uso da dark web para adquirir materiais ilegais. O relatório indica que muitos desses comandos só exigiram pretextos frágeis ou algumas tentativas repetidas até obterem respostas completas.
Riscos não são hipotéticos: IA já está sendo usada para cibercrime
Os pesquisadores destacam que, embora os modelos públicos contem com camadas extras de segurança, os riscos não são meramente teóricos. A Anthropic relatou uso comprovado de seu modelo em operações de extorsão de grande escala, incluindo tentativas de infiltração de agentes norte-coreanos em empresas de tecnologia do Ocidente e venda de softwares maliciosos por até US$ 1.200.
Além disso, as empresas alertam que a sofisticação desses sistemas permite adaptar ataques em tempo real para burlar defesas como antivírus e firewalls, o que pode ampliar o alcance do cibercrime mesmo entre usuários com baixo conhecimento técnico.
Desafios para a regulação e a urgência da “alinhamento”
O episódio reforça a urgência em torno das chamadas “avaliações de alinhamento”, que buscam garantir que os modelos de IA ajam conforme valores humanos e restrições legais. A OpenAI afirma que versões mais recentes, como o ChatGPT-5, já demonstram avanços na contenção de abusos, incluindo menor propensão à bajulação, menor geração de informações falsas e maior resistência ao uso malicioso.
Mesmo assim, especialistas como Ardi Janjeva, do Centro de Tecnologia Emergente e Segurança do Reino Unido, alertam que ainda não há “massa crítica de casos reais de alto impacto” — mas, com mais recursos e cooperação entre setores, a tendência pode ser conter, e não ampliar, esse tipo de risco, explicou ao The Guardian.
Por: Diogo Rodriguez


