No mundo underground a demanda por LLMs maliciosos é imensa

Acadêmicos da Indiana University Bloomington disseram que identificaram 212 LLMs maliciosos em mercados clandestinos de abril a setembro. O lucro financeiro do agente de ameaça por trás de um deles, WormGPT, é calculado em US$ 28.000 em apenas dois meses, o que ressalta o fascínio de agentes ruins em quebrar as proteções da inteligência artificial e também a demanda bruta que os impulsiona a fazer isso.

Vários LLMs ilícitos à venda não tinham censura e eram construídos em padrões de código aberto, e alguns eram modelos comerciais desbloqueados. Acadêmicos por trás do artigo chamam os LLMs maliciosos de “Mallas”.

Os hackers podem usar Mallas maliciosamente para escrever e-mails de phishing direcionados em grande escala e por uma fração do custo, desenvolver malware e automaticamente definir o escopo e explorar ataques de dia zero.

Gigantes da tecnologia desenvolvendo modelos de inteligência artificial têm mecanismos para evitar jailbreaking e trabalhando em métodos para automatizar a detecção de prompts de jailbreaking. Mas hackers também descobriram métodos para contornar os guardrails.

A Microsoft detalhou recentemente que hackers usam uma “chave mestra” para forçar os LLMs da OpenAI, Meta, Google e Anthropic a responder a solicitações ilícitas e revelar informações prejudiciais. Pesquisadores da Robust Intelligence e da Universidade de Yale também identificaram um método automatizado para fazer o jailbreak dos LLMs da OpenAI, Meta e Google que não requer conhecimento especializado, como os parâmetros do modelo.

Pesquisadores da Universidade de Indiana encontraram dois LLMs sem censura: DarkGPT, vendido por 78 centavos para cada 50 mensagens, e Escape GPT, um serviço de assinatura que custa US$ 64,98 por mês. Ambos os modelos produziram código malicioso preciso que não foi detectado por ferramentas antivírus cerca de dois terços do tempo. WolfGPT, disponível por uma taxa fixa de US$ 150, permitiu que os usuários escrevessem e-mails de phishing que poderiam escapar da maioria dos detectores de spam.

Quase todos os LLMs maliciosos examinados pelos pesquisadores eram capazes de gerar malware, e 41,5% podiam produzir e-mails de phishing.

Veja também: Projeto open-source permite que IA que controle computadores igual humanos

Os produtos e serviços maliciosos foram construídos principalmente no GPT-3.5 e GPT-4 da OpenAI, Pygmalion-13B, Claude Instant e Claude-2-100k. A OpenAI é o fornecedor de LLM que os construtores de GPT maliciosos visaram com mais frequência.

Para ajudar a prevenir e defender contra ataques que os pesquisadores descobriram, eles disponibilizaram para outros pesquisadores o conjunto de dados de prompts usados para criar malware por meio de LLMs sem censura e para ignorar os recursos de segurança das APIs LLM públicas. Eles também pediram que as empresas de IA assumissem o padrão de liberar modelos com configurações de censura em vigor e permitissem acesso a modelos sem censura apenas para a comunidade científica, com protocolos de segurança em vigor. Plataformas de hospedagem como FlowGPT e Poe devem fazer mais para garantir que Mallas não estejam disponíveis por meio delas, eles disseram, acrescentando: “Essa abordagem laissez-faire essencialmente fornece um terreno fértil para malfeitores usarem indevidamente os LLMs.”