O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

Em um recente artigo científico promovido pela Microsoft, obteve-se uma análise minuciosa da “confiabilidade” e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Texto: André Lopes

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Obstáculos à “IA responsável”: falta de transparência e greenwashing ético

A queda do Homo sapiens: somos a segunda coisa mais inteligente do planeta

Bill Gates afirma que, em 10 anos, humanos não serão mais necessários “para a maioria das coisas”

Agentes de IA: vitória será de quem souber “dar passos para trás”

Mark Cuban diz que IA “nunca é a resposta”, é uma “ferramenta”

LEIA MAIS

SXSW 2025 evidencia poder do empreendedorismo influenciador nas redes sociais

Trump quer que iPhones sejam fabricados nos EUA; entenda

Empresa afirma ressuscitar lobo extinto há 10 mil anos, mas cientistas...

Modelo global de inovação do Impact Hub desembarca em Cuiabá para...

Sony, Nintendo e outras companhias do Japão afundam após tarifas dos...

Recomendados

Big techs estão ‘vasculhando’ os EUA em busca de algo valioso

Embaixada da Itália recebe seminário sobre IA com participação do MCTI e secretários de CT&I

Startup brasileira fecha parceria com a Nvidia; veja os detalhes

SOBRE NÓS

SIGA-NOS

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

LEIA MAIS

Recomendados

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES