Apesar da crescente demanda por segurança e responsabilidade da IA, os testes e benchmarks atuais podem ficar aquém, de acordo com um novo relatório.
Modelos de IA generativa — modelos que podem analisar e produzir texto, imagens, música, vídeos e assim por diante — estão sob crescente escrutínio por sua tendência a cometer erros e geralmente se comportar de forma imprevisível. Agora, organizações de agências do setor público a grandes empresas de tecnologia estão propondo novos benchmarks para testar a segurança desses modelos.
No final do ano passado, a startup Scale AI formou um laboratório dedicado a avaliar o quão bem os modelos se alinham com as diretrizes de segurança. Este mês, o NIST e o UK AI Safety Institute lançaram ferramentas projetadas para avaliar o risco do modelo.
Mas esses testes e métodos de investigação de modelos podem ser inadequados.
O Ada Lovelace Institute (ALI), uma organização de pesquisa de IA sem fins lucrativos sediada no Reino Unido, conduziu um estudo que entrevistou especialistas de laboratórios acadêmicos, sociedade civil e que estão produzindo modelos de fornecedores, bem como auditou pesquisas recentes sobre avaliações de segurança de IA. Os coautores descobriram que, embora as avaliações atuais possam ser úteis, elas não são exaustivas, podem ser facilmente manipuladas e não necessariamente dão uma indicação de como os modelos se comportarão em cenários do mundo real.
“Seja um smartphone, um medicamento prescrito ou um carro, esperamos que os produtos que usamos sejam seguros e confiáveis; nesses setores, os produtos são rigorosamente testados para garantir que sejam seguros antes de serem implantados”, disse Elliot Jones, pesquisador sênior do ALI e coautor do relatório, ao TechCrunch. “Nossa pesquisa teve como objetivo examinar as limitações das abordagens atuais para avaliação de segurança de IA, avaliar como as avaliações estão sendo usadas atualmente e explorar seu uso como uma ferramenta para formuladores de políticas e reguladores.”
Benchmarks e red teaming
Os coautores do estudo primeiro pesquisaram a literatura acadêmica para estabelecer uma visão geral dos danos e riscos que os modelos representam hoje, e o estado das avaliações de modelos de IA existentes. Eles então entrevistaram 16 especialistas, incluindo quatro funcionários de empresas de tecnologia não identificadas que desenvolvem sistemas de IA generativos.
O estudo encontrou grande discordância dentro da indústria de IA sobre o melhor conjunto de métodos e taxonomia para avaliar modelos.
Algumas avaliações testaram apenas como os modelos se alinhavam com benchmarks no laboratório, não como os modelos poderiam impactar usuários do mundo real. Outras se basearam em testes desenvolvidos para fins de pesquisa, não avaliando modelos de produção — ainda assim, os fornecedores insistiram em usá-los na produção.
Já escrevemos sobre os problemas com benchmarks de IA antes, e o estudo destaca todos esses problemas e muito mais.
Os especialistas citados no estudo notaram que é difícil extrapolar o desempenho de um modelo a partir de resultados de benchmark e não está claro se os benchmarks podem ao menos mostrar que um modelo possui uma capacidade específica. Por exemplo, embora um modelo possa ter um bom desempenho em um exame da ordem estadual, isso não significa que ele será capaz de resolver desafios legais mais abertos.
Os especialistas também apontaram para a questão da contaminação de dados, onde os resultados de benchmark podem superestimar o desempenho de um modelo se o modelo tiver sido treinado nos mesmos dados em que está sendo testado. Os benchmarks, em muitos casos, estão sendo escolhidos pelas organizações não porque são as melhores ferramentas para avaliação, mas por uma questão de conveniência e facilidade de uso, disseram os especialistas.
“Os benchmarks correm o risco de serem manipulados por desenvolvedores que podem treinar modelos no mesmo conjunto de dados que será usado para avaliar o modelo, equivalente a ver o papel do exame antes do exame, ou escolhendo estrategicamente quais avaliações usar”, disse Mahi Hardalupas, pesquisador do ALI e coautor do estudo, ao TechCrunch. “Também importa qual versão de um modelo está sendo avaliada. Pequenas mudanças podem causar mudanças imprevisíveis no comportamento e podem substituir recursos de segurança integrados.”
O estudo do ALI também encontrou problemas com o “red-teaming”, a prática de atribuir tarefas a indivíduos ou grupos para “atacar” um modelo para identificar vulnerabilidades e falhas. Várias empresas usam o red-teaming para avaliar modelos, incluindo as startups de IA OpenAI e Anthropic, mas há poucos padrões acordados para o red teaming, dificultando a avaliação da eficácia de um determinado esforço.
Especialistas disseram aos coautores do estudo que pode ser difícil encontrar pessoas com as habilidades e conhecimentos necessários para trabalhar em equipes vermelhas, e que a natureza manual do trabalho em equipes vermelhas o torna caro e trabalhoso, apresentando barreiras para organizações menores sem os recursos necessários.
Soluções possíveis
A pressão para lançar modelos mais rapidamente e a relutância em conduzir testes que possam gerar problemas antes do lançamento são os principais motivos pelos quais as avaliações de IA não melhoraram.
“Uma pessoa com quem falamos trabalhando para uma empresa que desenvolve modelos de fundação sentiu que havia mais pressão dentro das empresas para liberar modelos rapidamente, tornando mais difícil recuar e levar a condução de avaliações a sério”, disse Jones. “Grandes laboratórios de IA estão liberando modelos em uma velocidade que ultrapassa a capacidade deles ou da sociedade de garantir que sejam seguros e confiáveis.”
Um entrevistado no estudo da ALI chamou a avaliação de modelos para segurança de um problema “intratável”. Então, que esperança a indústria — e aqueles que a regulam — tem para soluções?
Mahi Hardalupas, pesquisadora do ALI, acredita que há um caminho a seguir, mas que isso exigirá mais engajamento de órgãos do setor público.
“Reguladores e formuladores de políticas devem articular claramente o que querem das avaliações”, ele disse. “Simultaneamente, a comunidade de avaliação deve ser transparente sobre as limitações atuais e o potencial das avaliações.”
Hardalupas sugere que os governos exijam mais participação pública no desenvolvimento de avaliações e implementem medidas para dar suporte a um “ecossistema” de testes de terceiros, incluindo programas para garantir acesso regular a quaisquer modelos e conjuntos de dados necessários.
Jones acredita que pode ser necessário desenvolver avaliações “específicas do contexto” que vão além de simplesmente testar como um modelo responde a um prompt e, em vez disso, analisar os tipos de usuários que um modelo pode impactar (por exemplo, pessoas de uma determinada origem, gênero ou etnia) e as maneiras pelas quais os ataques a modelos podem derrotar as salvaguardas.
“Isso exigirá investimento na ciência subjacente das avaliações para desenvolver avaliações mais robustas e repetíveis, baseadas na compreensão de como um modelo de IA opera”, acrescentou.
Mas nunca pode haver garantia de que um modelo seja seguro.
“Como outros notaram, ‘segurança’ não é uma propriedade dos modelos”, disse Hardalupas. “Determinar se um modelo é ‘seguro’ requer entender os contextos em que ele é usado, para quem ele é vendido ou disponibilizado, e se as salvaguardas que estão em vigor são adequadas e robustas para reduzir esses riscos. As avaliações de um modelo de fundação podem servir a um propósito exploratório para identificar riscos potenciais, mas não podem garantir que um modelo seja seguro, muito menos ‘perfeitamente seguro’. Muitos dos nossos entrevistados concordaram que as avaliações não podem provar que um modelo é seguro e podem apenas indicar que um modelo não é seguro.”
Por Kyle Wiggers