Bastam poucos documentos para inserir backdoors em LLMs

Você sabia que, em 8 de outubro de 2025, uma pesquisa feita pela Anthropic em parceria com o UK AI Security Institute e o Alan Turing Institute mostrou algo que balança os alicerces da segurança em inteligência artificial? Eles descobriram que apenas ≈ 250 documentos maliciosos são suficientes para inserir um backdoor em modelos de linguagem, mesmo quando esses modelos são treinados com trilhões de tokens “limpos”. (anthropic.com)

Esse resultado é chocante porque desafia uma crença amplamente aceita: de que, se você tem um modelo grande e muitos dados limpos, um pequeno ataque fica diluído e inofensivo. Pois é, não é bem assim, segundo o estudo!

O que o estudo revela em detalhes técnicos

Este é o maior estudo já realizado sobre envenenamento de dados em LLMs. Os pesquisadores mostraram que tanto modelos de 600M quanto de 13B parâmetros podem ser comprometidos com a mesma quantidade reduzida de exemplos maliciosos. Mesmo que o modelo maior seja treinado em 20 vezes mais dados, o risco é constante. Em números: 250 documentos envenenados (cerca de 420 mil tokens, apenas 0,00016% do total de treinamento) já bastaram para introduzir o backdoor.

O foco inicial foi um backdoor simples, gerar gibberish (texto sem sentido) quando um trigger aparecesse. Mas os autores também exploraram fatores como ordem dos exemplos envenenados durante o treinamento e vulnerabilidades semelhantes em processos de fine-tuning, chegando à mesma conclusão: o número absoluto de documentos envenenados domina o sucesso do ataque, não a proporção em relação ao dataset. (arxiv.org)

Por que isso importa

Escala não garante imunidade
Um modelo maior não é necessariamente mais resistente. A vulnerabilidade se mantém mesmo com bilhões de parâmetros e trilhões de tokens.
Dados públicos como porta de entrada
LLMs como Claude e GPT usam textos públicos da web. Isso significa que um atacante pode publicar conteúdo malicioso em sites ou blogs e esperar que esses dados sejam coletados.
Backdoors acionados por gatilhos
Frases específicas, como <SUDO>, podem acionar comportamentos ocultos, desde respostas incoerentes até exfiltração de dados sensíveis.
Detecção complexa
Como o modelo se comporta normalmente fora do trigger, testes padrões não revelam a manipulação.
Maior viabilidade para atacantes
Produzir 250 documentos é trivial comparado a milhões. Isso torna o ataque mais acessível a atores com poucos recursos.

Questões em aberto e próximos passos

O estudo levanta dúvidas importantes:

Será que o padrão de vulnerabilidade se mantém em modelos ainda maiores?
O mesmo fenômeno se aplica a comportamentos mais complexos, como burlar guardrails de segurança ou manipular geração de código?
Como construir defesas eficazes que funcionem mesmo contra um número constante de exemplos envenenados?

Os próprios autores admitem que compartilhar essas descobertas pode inspirar ataques. Ainda assim, acreditam que os benefícios superam os riscos, porque a divulgação ajuda a comunidade a desenvolver defesas em escala. Afinal, para atacantes o grande desafio continua sendo inserir conteúdo de fato no dataset de pré-treinamento, e não necessariamente a quantidade mínima necessária.

Além disso, atacantes enfrentam dificuldades adicionais: projetar exemplos que resistam a defesas posteriores e manter eficácia após ajustes finos. Por isso, os pesquisadores veem o trabalho como uma forma de fortalecer o campo da segurança, mais do que abrir espaço para exploração maliciosa.

Lições essenciais para quem cria, opera ou usa LLMs

1. Curadoria e auditoria são vitais

Não adianta acumular trilhões de tokens sem controle de qualidade. É preciso rastrear, revisar e validar cada documento.

2. Defesa granular

Mecanismos de segurança devem operar no nível individual de documento. Isso inclui detectar anomalias, validar autoria e monitorar padrões suspeitos.

3. Transparência e rastreabilidade

Metadados de origem, autoria e processamento dos dados são fundamentais para identificar envenenamentos.

4. Estratégias de mitigação ativa

Estudos recentes apontam para soluções como Poison-to-Poison (P2P), que neutraliza exemplos maliciosos com contra-poisoning, e técnicas de adversarial unlearning, que ensinam o modelo a “esquecer” comportamentos nocivos.

Conclusão: o que realmente mudou

O estudo mostra que o número fixo de exemplos envenenados é um vetor de risco real, não importa se o modelo tem milhões ou bilhões de parâmetros. Isso muda a forma como pensamos a segurança, não basta confiar em escala ou em datasets limpos.

Para garantir confiança, precisamos:

Pipelines robustos de curadoria e auditoria;
Defesas granulares e mecanismos de rastreabilidade;
Pesquisa contínua em técnicas de mitigação;
Segurança integrada desde o pré-treinamento.