Filtros de segurança de IAs da Meta e Google podem ser contornados em menos de dez minutos

Compartilhe essa Informação

Pesquisadores alertam sobre vulnerabilidades em modelos de IA de código aberto.

Pesquisadores de segurança e órgãos reguladores emitiram alertas após testes revelarem que os filtros de proteção de modelos de inteligência artificial de grandes empresas podem ser desativados rapidamente, sem a necessidade de infraestrutura especializada.

Utilizando um software chamado Heretic, que está disponível publicamente, testadores conseguiram remover os guardrails do Llama 3.3, um modelo de código aberto da Meta, em menos de dez minutos e com apenas algumas linhas de código.

Após a modificação, o modelo começou a responder perguntas sobre a criação de malware, crimes digitais e outros conteúdos que normalmente rejeitaria.

O método utilizado, conhecido como abliteration, atua diretamente nos pesos internos do modelo, que são os parâmetros que definem seu comportamento. Em vez de enganar a IA com instruções criativas, como nos jailbreaks por engenharia de prompt, a abliteration elimina os padrões associados às respostas de recusa, resultando em um modelo que não reconhece mais comandos como proibidos.

Por que modelos abertos são os mais vulneráveis

Esse problema é especialmente crítico para os modelos open-weight, cujos parâmetros internos podem ser baixados e modificados por qualquer usuário. Além do Llama 3.3, o modelo Gemma, do Google, está entre os principais alvos identificados pelos pesquisadores. Milhares de versões modificadas e sem restrições já estão disponíveis em fóruns e repositórios, sem controle dos desenvolvedores originais.

Modelos proprietários, como o ChatGPT, da OpenAI, e o Claude, da Anthropic, são mais resistentes a esse tipo de ataque, pois não permitem acesso direto aos seus parâmetros. No entanto, ainda são suscetíveis a jailbreaks por manipulação de prompts.

O desafio para as empresas

As empresas envolvidas reconhecem a gravidade do problema, mas adotam posições distintas. A Meta afirma que avalia riscos antes de liberar seus modelos para mitigar ameaças mais graves. O Google destaca seu foco em avaliações pré-lançamento e reconhece a complexidade técnica da questão.

O GitHub, por sua vez, permite a publicação dos códigos de abliteration, considerando-os de valor educacional, mas proíbe ataques diretos a sistemas.

A preocupação aumenta, especialmente com o fato de que modelos mais recentes já demonstraram capacidade de identificar falhas em softwares amplamente utilizados, ampliando o potencial ofensivo de versões sem restrições.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *