Dark
Light
Today: 31 de May de 2025
26 de May de 2025
4 mins read

“Alucinação” em LLMs voltados a código representa ameaça crítica à integridade da cadeia de suprimentos de software

A integração com modelos de linguagem de grande escala (LLMs) ao desenvolvimento de software trouxe avanços significativos em produtividade, agilidade e até mesmo democratização do acesso à programação. Contudo, ao mesmo tempo em que esses modelos automatizam tarefas antes manuais, também introduzem novos vetores de risco — alguns dos quais ainda pouco compreendidos e subestimados.

Um desses riscos acaba de ser exposto com profundidade técnica por um estudo conduzido por pesquisadores das universidades do Texas, Oklahoma e Virginia Tech, que revela um fenômeno emergente: as chamadas alucinações de pacotes (package hallucinations). Essa nova categoria de falha representa um risco real à integridade da cadeia de suprimentos de software e está diretamente ligada ao uso de LLMs para geração automatizada de código.

Entendendo o fenômeno: o que são alucinações de pacotes?

Ao gerar trechos de código, muitos LLMs – especialmente quando operando com temperaturas mais altas, prompts ambíguos ou sem mecanismos de validação – tendem a sugerir a instalação de bibliotecas e pacotes que simplesmente não existem nos repositórios oficiais como o PyPI (Python) ou o npm (JavaScript).

O estudo analisou 576 mil amostras de código geradas por 16 modelos diferentes, entre eles GPT-4, GPT-3.5, CodeLlama, DeepSeek, WizardCoder e outros. A taxa média de alucinações identificadas foi de:

  • 5,2% para modelos comerciais, como GPT-4 e GPT-3.5
  • 21,7% para modelos open source, com destaque negativo para variantes do CodeLlama

No total, foram catalogados 205.474 pacotes alucinados únicos — nomes que não correspondem a bibliotecas reais, mas que podem ser registrados por atacantes e utilizados para distribuir malware, configurando uma nova classe de ataque de confusão de pacotes (package confusion attack).

Um vetor de ataque trivial, mas altamente eficaz

Essa ameaça se torna crítica porque explora uma brecha na confiança excessiva dos desenvolvedores nos resultados produzidos por LLMs. O vetor é simples:

  1. O LLM gera código que referencia um pacote inexistente.
  2. O atacante registra esse nome no repositório oficial, com código malicioso.
  3. O desenvolvedor, confiando no modelo, instala o pacote.
  4. O código malicioso se propaga para o ambiente, o repositório ou o produto final.

Ao contrário dos ataques tradicionais de typosquatting ou brandjacking, esse tipo de ataque não depende de erro humano. Ele parte diretamente da sugestão do modelo — um agente considerado “de confiança” na nova cadeia de desenvolvimento assistida por IA.

Uma falha sistêmica e persistente nos modelos

O estudo mostra ainda que essas alucinações não são incidentes aleatórios, mas padrões recorrentes:

  • Em 43% dos casos, o mesmo pacote alucinado foi gerado repetidamente ao submeter o mesmo prompt.
  • Em 58% dos testes, as alucinações se repetiram mais de uma vez em 10 execuções com a mesma entrada.
  • Modelos com maior “verbosidade” — que sugerem muitos pacotes — apresentaram correlação direta com taxas mais altas de alucinação.

E o mais preocupante: muitos modelos não conseguem distinguir suas próprias alucinações. Em testes de detecção, apenas modelos como GPT-4 e DeepSeek apresentaram acurácia acima de 75% ao tentar classificar seus próprios pacotes gerados como válidos ou não.

E as estratégias de mitigação?

A boa notícia é que o estudo também explorou caminhos para mitigação. Os autores testaram três abordagens principais:

  1. RAG (Retrieval-Augmented Generation) Enriquecer o prompt com pacotes reais, extraídos de bases confiáveis, antes da geração de código. Redução de até 25% nas alucinações.
  2. Auto-refinamento iterativo Após a geração, o modelo é instruído a revisar e substituir pacotes inválidos. Efetivo em modelos com alta capacidade de autorrevisão (ex: DeepSeek).
  3. Fine-tuning supervisionado com dados filtrados Reeducar o modelo com dados validados, removendo respostas que incluíam pacotes fictícios. Essa abordagem reduziu as alucinações em até 83%, mas com perda significativa de qualidade do código em benchmarks como o HumanEval.

O que isso nos ensina?

Estamos diante de uma mudança de paradigma na segurança da cadeia de suprimentos de software. O uso de LLMs exige a reinterpretação de práticas de confiança, validação e controle de dependências. A ideia de que “se o modelo sugeriu, deve ser seguro” já não se sustenta tecnicamente — e pode custar caro.

A segurança da cadeia de suprimentos de software não é mais uma preocupação apenas do time de DevSecOps. Ela se tornou uma responsabilidade compartilhada entre engenharia, arquitetura, produto e liderança. Por isso, temos investido em práticas estruturadas e plataformas especializadas para lidar com esse novo cenário.

DevSecure Hub, nosso serviço de segurança, entrega uma abordagem proativa e contínua para elevar a maturidade de desenvolvimento seguro, especialmente em ambientes complexos e regulados, como, por exemplo, o setor de saúde.

Entre as soluções oferecidas, destacamos o Security Champion: um especialista de segurança alocado junto à equipe de desenvolvimento, com atuação prática no dia a dia do time. Esse profissional atua na raiz do problema — promovendo a implementação de boas práticas, orientando correções e evitando a reincidência de vulnerabilidades com foco realista e colaborativo.

Essa atuação é complementada por:

  • Pentest Contínuo, para detectar falhas antes que sejam exploradas;
  • Threat Modeling, para antecipar riscos no design das aplicações;
  • Relatórios de Maturidade, que monitoram a evolução da postura de segurança;
  • Treinamentos especializados, focados em capacitar times técnicos para reagir e prevenir ataques com autonomia.

Se sua organização está explorando o uso de LLMs no desenvolvimento, ou busca evoluir sua maturidade em segurança de software de forma prática, o Grupo Ivy pode ser seu parceiro estratégico.

Me mande uma mensagem ou fale com nossos especialistas. Vamos juntos elevar o padrão de confiabilidade dos seus sistemas — com inteligência, agilidade e segurança desde a primeira linha de código.

Para finalizar, deixo aqui uma dica para quem quer ficar por dentro das novidades do mercado: o blog da Ivy. Acesse clicando neste link e veja as principais tendências e opiniões de nossos players.

Previous Story

Outsourcing de TI: escala, especialização e inteligência aplicadas ao negócio

Next Story

Scan e Pentest não são a mesma coisa — e entender isso pode salvar sua empresa

Latest from Blog

Go toTop

Don't Miss

Scan e Pentest não são a mesma coisa — e entender isso pode salvar sua empresa

Ao longo da minha jornada liderando projetos de segurança ofensiva

Outsourcing de TI: escala, especialização e inteligência aplicadas ao negócio

Durante anos, o outsourcing de TI foi enxergado como uma