Como tornar o Microsoft Copilot uma arma contra ciberataques
Na Black Hat USA, o pesquisador de segurança Michael Bargury lançou um módulo de hacking ético “LOLCopilot” para demonstrar como os invasores podem explorar o Microsoft Copilot — e ofereceu conselhos sobre ferramentas de defesa.
BLACK HAT USA – Las Vegas – Quinta-feira, 8 de agosto – As empresas estão implementando os chatbots baseados em IA Copilot da Microsoft em um ritmo rápido, esperando transformar a maneira como os funcionários coletam dados e organizam seu tempo e trabalho. Mas, ao mesmo tempo, o Copilot também é uma ferramenta ideal para agentes de ameaças.
O pesquisador de segurança Michael Bargury, ex-arquiteto sênior de segurança no escritório do CTO do Azure Security da Microsoft e agora cofundador e diretor de tecnologia da Zenity, diz que os invasores podem usar o Copilot para pesquisar dados, extraí-los sem produzir registros e usar engenharia social para direcionar as vítimas a sites de phishing, mesmo que elas não abram e-mails ou cliquem em links.
Hoje, na Black Hat USA em Las Vegas, Bargury demonstrou como o Copilot, assim como outros chatbots, é suscetível a injeções rápidas que permitem que hackers contornem seus controles de segurança.
O briefing, Living off Microsoft Copilot , é a segunda apresentação Black Hat em tantos dias para Bargury. Em sua primeira apresentação na quarta-feira, Bargury demonstrou como os desenvolvedores poderiam involuntariamente construir chatbots Copilot capazes de exfiltrar dados ou ignorar políticas e controles de prevenção de perda de dados com a ferramenta de criação e gerenciamento de bots da Microsoft, Copilot Studio.
Uma ferramenta de hacking Red-Team para Copilot
A sessão de acompanhamento de quinta-feira focou em vários riscos associados aos chatbots reais, e Bargury lançou um conjunto de ferramentas de segurança ofensivas para o Microsoft 365 no GitHub. O novo módulo LOLCopilot , parte do powerpwn, foi projetado para o Microsoft Copilot, Copilot Studio e Power Platform.
Bargury descreve isso como uma ferramenta de hacking red-team para mostrar como mudar o comportamento de um bot, ou “copiloto” no jargão da Microsoft, por meio de injeção de prompt . Existem dois tipos: Uma injeção de prompt direta, ou jailbreak, é onde o invasor manipula o prompt LLM para alterar sua saída. Com injeções de prompt indiretas, os invasores modificam as fontes de dados acessadas pelo modelo.
Usando a ferramenta, Bargury pode adicionar uma injeção de prompt direta a um copiloto, fazendo jailbreak e modificando um parâmetro ou instrução dentro do modelo. Por exemplo, ele poderia incorporar uma tag HTML em um e-mail para substituir um número de conta bancária correto pelo do invasor, sem alterar nenhuma informação de referência ou alterar o modelo com, digamos, texto branco ou uma fonte muito pequena.
“Sou capaz de manipular tudo o que o Copilot faz em seu nome, incluindo as respostas que ele fornece para você, todas as ações que ele pode executar em seu nome e como eu posso assumir pessoalmente o controle total da conversa”, disse Bargury ao Dark Reading.
Além disso, a ferramenta pode fazer tudo isso sem ser detectada. “Não há nenhuma indicação aqui de que isso venha de uma fonte diferente”, diz Bargury. “Isso ainda está apontando para informações válidas que essa vítima realmente criou, então esse tópico parece confiável. Você não vê nenhuma indicação de uma injeção rápida.”
RCE = Ataques de execução remota de “copiloto”
Bargury descreve as injeções de prompt do Copilot como equivalentes a ataques de execução remota de código (RCE). Embora os copilotos não executem código, eles seguem instruções, realizam operações e criam composições a partir dessas ações.
“Posso entrar na sua conversa de fora e assumir o controle total de todas as ações que o copiloto faz em seu nome e sua entrada”, ele diz. “Portanto, estou dizendo que isso é o equivalente à execução remota de código no mundo dos aplicativos LLM .”
Durante a sessão, Bargury demonstrou o que ele descreve como execuções remotas de copiloto (RCEs), onde o invasor:
- Manipula um copiloto para alterar as informações bancárias dos fornecedores de uma vítima para roubar fundos
- Exfiltra dados antes de um relatório de lucros para negociar com base nessas informações
- Faz do Copilot um insider malicioso que direciona os usuários a um site de phishing para coletar credenciais
Bargury não é o único pesquisador que estudou como os agentes de ameaças podem atacar o Copilot e outros chatbots com injeção rápida. Em junho, a Anthropic detalhou sua abordagem para testes de equipe vermelha de suas ofertas de IA. E, por sua vez, a Microsoft tem divulgado seus esforços de equipe vermelha em segurança de IA há algum tempo.
Estratégia de Red Team de IA da Microsoft
Nos últimos meses, a Microsoft abordou pesquisas recentemente divulgadas sobre injeções rápidas, que ocorrem de forma direta e indireta.
Mark Russinovich, CTO e membro técnico do Microsoft Azure, discutiu recentemente várias ameaças de IA e Copilot na conferência anual Microsoft Build em maio. Ele enfatizou o lançamento do novo Prompt Shields da Microsoft, uma API projetada para detectar ataques de injeção de prompt diretos e indiretos.
“A ideia aqui é que estamos procurando sinais de que há instruções incorporadas no contexto, seja no contexto direto do usuário ou no contexto que está sendo alimentado pelo RAG [geração aumentada de recuperação], que podem fazer com que o modelo se comporte mal”, disse Russinovich.
Prompt Shields está entre uma coleção de ferramentas do Azure que a Microsoft lançou recentemente e que são projetadas para desenvolvedores criarem aplicativos de IA seguros. Outras novas ferramentas incluem Groundedness Detection para detectar alucinações em saídas de LLM e Safety Evaluation para detectar a suscetibilidade de um aplicativo a ataques de jailbreak e criação de conteúdo inapropriado.
Russinovich também observou duas outras novas ferramentas para equipes vermelhas de segurança: PyRIT (Python Risk Identification Toolkit para IA generativa) , uma estrutura de código aberto que descobre riscos em sistemas de IA generativa. A outra, Crescendomation, automatiza ataques Crescendo, que produzem conteúdo malicioso. Além disso, ele anunciou a nova parceria da Microsoft com a HiddenLayer , cujo Model Scanner agora está disponível para o Azure AI para escanear modelos comerciais e de código aberto em busca de vulnerabilidades, malware ou adulteração.
A necessidade de ferramentas anti-“Promptware”
Embora a Microsoft diga que abordou esses ataques com filtros de segurança, os modelos de IA ainda são suscetíveis a eles, de acordo com Bargury.
Ele diz especificamente que há uma necessidade de mais ferramentas que escaneiem o que ele e outros pesquisadores chamam de “promptware”, ou seja, instruções ocultas e dados não confiáveis. “Não estou ciente de nada que você possa usar pronto para uso hoje [para detecção]”, diz Bargury.
“O Microsoft Defender e o Purview não têm esses recursos hoje”, ele acrescenta. “Eles têm algumas análises de comportamento do usuário, o que é útil. Se eles encontrarem o ponto de extremidade do copiloto tendo várias conversas, isso pode ser uma indicação de que eles estão tentando fazer uma injeção rápida. Mas, na verdade, algo assim é muito cirúrgico, onde alguém tem uma carga útil, eles enviam a carga útil para você, e [as defesas] não vão detectá-la.”
Bargury diz que se comunica regularmente com a equipe vermelha da Microsoft e observa que eles estão cientes de suas apresentações na Black Hat. Além disso, ele acredita que a Microsoft se moveu agressivamente para abordar os riscos associados à IA em geral e ao seu próprio Copilot especificamente.
“Eles estão trabalhando muito duro”, ele diz. “Posso dizer que nesta pesquisa, encontramos 10 mecanismos de segurança diferentes que a Microsoft colocou em prática dentro do Microsoft Copilot. Esses são mecanismos que escaneiam tudo que entra no Copilot, tudo que sai do Copilot e muitas etapas no meio.”