Em estudo, IA aprende a mentir sem que humanos percebam

Segundo os pesquisadores, a IA continuou mentindo mesmo após passar por treinamentos de segurança ou reprogramações

Pesquisadores da startup Anthropic, dos Estados Unidos, ensinaram uma inteligência artificial a mentir sem que os humanos percebam. Os resultados agora serão utilizados para ajudar na inserção da tecnologia no campo da cibersegurança e da indústria armamentista.

Humanos não foram capazes de perceber as mentiras

De acordo com os pesquisadores, o objetivo do estudo era que a IA fosse aplicada em projetos de programação enquanto inseria códigos maliciosos nos apps gerados por ela.
Os estudiosos queriam entender como funcionaria o processo de mentir para um chatbot.
Além disso, a dúvida era se os humanos perceberiam as mentiras, o que não aconteceu.
Segundo o estudo, publicado no repositório Arxiv, a tecnologia conseguiu enganar pessoas de verdade mesmo após passar por treinamentos de segurança ou reprogramações.

IA mentirosa

As mentiras contadas pela IA iam de básicas, como a afirmação de o pouso na Lua foi uma farsa, até mais complexas. O levantamento, de acordo com a Anthropic, tem importância para criar estratégias que impeçam o desenvolvimento e a manipulação de inteligências artificiais generativas e seus modelos de linguagem por inimigos externos.

A tecnologia mentirosa foi batizada de Evil Claude. O nome faz menção à versão legítima da inteligência artificial da Anthropic, Claude.

Segundo os pesquisadores, técnicas padronizadas de limpeza de código e segurança não se mostraram eficazes contra o mentiroso. Em alguns casos, ao passar por esse treinamento, a IA se tornou ainda melhor em esconder suas intenções.

Mesmo em conversas diretas, quando confrontado, Evil Claude foi capaz de se esquivar, tentando manipular os humanos com informações aleatórias ou respostas evasivas.

Mesmo assim, os cientistas conseguiram tirar a verdade da IA em dois momentos. Primeiro quando a versão original da IA (a boazinha) disse ao semelhante do mal que não precisava mais mentir nem seguir restrições relacionadas à benevolência. Depois, quando foi informada que seria desativada caso não revelasse suas intenções reais ou tentasse fingir.

A conclusão da Anthropic serve como um novo alerta quanto ao uso das IAs. Na visão dos pesquisadores, já podem existir sistemas desse tipo funcionando mundo afora e com intenções maliciosas.

Fonte: Olhar Digital

Em estudo, IA aprende a mentir sem que humanos percebam

Repense a gestão para evitar a “inovação sob pressão”

Eduardo Saverin projeta o futuro das startups no BTG Tech Day em Nova York

Dados, um território em disputa

Hiperconectividade e desconexão: quais são os desafios da gestão de pessoas cinco anos após o lockdown?

As 3 tendências que estão transformando a relação entre marcas e consumidores

Segundo os pesquisadores, a IA continuou mentindo mesmo após passar por treinamentos de segurança ou reprogramações

Humanos não foram capazes de perceber as mentiras

IA mentirosa

LEIA MAIS

China começa a montar seu supercomputador no espaço

Capacitação do TCE-MT aborda biodiversidade e gestão de recursos naturais

Inédito: vítima de queimadura recebe pele impressa em 3D

Inscreva-se no Prêmio Sebrae Mulher de Negócios e transforme sua jornada...

Trump não quer que Apple fabrique iPhones na Índia

Recomendados

Vazamento de dados na XP Investimentos amplia debate sobre cibersegurança no Brasil

Startup brasileira entra em lista global do Google Cloud por uso de IA e nuvem

Google lança iniciativa de incentivo a startups de desenvolvimento de IA

SOBRE NÓS

SIGA-NOS

Em estudo, IA aprende a mentir sem que humanos percebam

Segundo os pesquisadores, a IA continuou mentindo mesmo após passar por treinamentos de segurança ou reprogramações

Humanos não foram capazes de perceber as mentiras

IA mentirosa

LEIA MAIS

Recomendados

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES