Falhas Graves de Segurança Atingem Motores de IA da Nvidia, Meta e Microsoft

Pesquisadores da Oligo descobriram vulnerabilidades críticas de execução remota de código em motores de inferência de inteligência artificial, afetando tecnologias de empresas como Meta, Microsoft e Nvidia, além de projetos de código aberto PyTorch, como vLLM e SGLand. A causa comum dessas brechas, segundo o pesquisador Avi Lumelsky, reside no uso inseguro do ZeroMQ e na desserialização de pickle do Python. Esse padrão foi denominado ShadowMQ, onde a lógica de desserialização insegura se propagou por diversos projetos devido à reutilização de código.

A raiz do problema foi identificada em uma vulnerabilidade no framework Llama da Meta (CVE-2024-50050, score CVSS 6,3/9,3). A falha, corrigida em outubro, envolvia o uso do método recv_pyobj() do ZeroMQ para desserializar dados recebidos usando o módulo pickle do Python. A exploração potencial permitia que invasores executassem códigos arbitrários ao enviar dados maliciosos para desserialização.

A Oligo identificou o mesmo padrão de vulnerabilidade em outros frameworks de inferência, como TensorRT-LLM da Nvidia, Sarathi-Serve da Microsoft, Modular Max Server, SGLang e vLLM. Em alguns casos, o problema surgiu da cópia e colagem direta de código. Algumas empresas corrigiram a falha, enquanto outras permanecem vulneráveis ou reverteram para versões anteriores.

As vulnerabilidades específicas incluem:

* CVE-2025-30165 (score CVSS: 8,0) – vLLM (não corrigida, retornou à engine V1 até a correção);
* CVE-2025-23254 (CVSS: 8,8) – NVIDIA TensorRT-LLM (corrigida na versão 0.18.2);
* CVE-2025-60455 (CVSS score: N/A) – Modular Max Server (corrigida);
* Sarathi-Serve (sem correção);
* SGLang (correções incompletas).

Os motores de inferência são componentes cruciais de infraestruturas de IA. A exploração dessas falhas pode permitir que hackers executem códigos, elevem privilégios, roubem modelos e implantem agentes maliciosos, como mineradores de criptomoedas, nas LLMs.