RedTeam: o ingrediente chave para uma IA responsável

Desenvolver uma IA responsável não é uma proposta simples. Por um lado, as organizações estão se esforçando para permanecer na vanguarda do avanço tecnológico.

Por outro lado, devem garantir o estrito cumprimento das normas éticas e dos requisitos regulamentares.

As organizações que tentam equilibrar esta linha tênue entre a inovação rápida e os crescentes requisitos regulamentares terão de empregar uma abordagem padronizada ao desenvolvimento, garantindo que permanecem em conformidade e competitivas num mercado cada vez mais concorrido.

Inovação em IA em risco

Muitas empresas já estão lutando para decifrar um nó cada vez mais emaranhado de regulamentações, incluindo a (próxima) Lei de Resiliência Cibernética e a Lei de Dados .

Embora a recente Lei da UE sobre IA tenha dado um passo significativo em direção à segurança da IA, a lei também criou burocracia adicional. Suscitou apelos do Parlamento Europeu para facilitar o cumprimento da Lei, simplificando os requisitos administrativos e clarificando áreas jurídicas cinzentas. Além disso, há pedidos de melhor financiamento da investigação e apoio em IA para ajudar as pequenas empresas a lidar com a legislação. Sem estes ajustamentos à lei, existem preocupações genuínas de que a UE não consiga estabelecer-se como pioneira neste domínio e perca para os EUA e a China.

O governo do Reino Unido assumiu uma postura mais pró-inovação. Em vez de introduzir novas leis, o seu livro branco sobre IA propõe cinco princípios de alto nível para os reguladores existentes aplicarem nas suas jurisdições, centrando-se na segurança, justiça, transparência, responsabilização e direitos dos utilizadores. Estes princípios mais amplos são menos prescritivos do que a Lei da UE. Na verdade, eles se alinham bem com os objetivos do red teaming, um ingrediente já confiável dos procedimentos de teste de segurança de TI.

Equipe vermelha de IA: definindo e reduzindo riscos, sem sufocar a inovação

Para regular uma tecnologia, você deve entendê-la. Parte do desafio da regulamentação excessivamente rígida é que ela pressupõe que já sabemos como limitar os riscos da IA ​​tanto do ponto de vista da segurança como da proteção — mas esse não é o caso.

Ainda descobrimos regularmente novos pontos fracos em modelos de uma perspectiva de segurança tradicional, como modelos de IA que vazam dados, e perspectivas de segurança, como modelos que produzem imagens ou códigos não intencionais e prejudiciais. Estes riscos ainda estão a ser descobertos e definidos pela comunidade global de investigadores, por isso, até compreendermos e definirmos melhor estes desafios, o melhor curso de ação é permanecer diligente nos testes de resistência dos modelos e implementações de IA.

Os exercícios de red teaming são uma das melhores maneiras de encontrar novos riscos, tornando-os ideais para encontrar preocupações de segurança em tecnologias emergentes, como a IA generativa. Isso pode ser feito usando uma combinação de testes de penetração, competições de hackers ofensivas com prazo determinado e programas de recompensa por bugs. O resultado é uma lista abrangente de problemas e recomendações práticas, incluindo conselhos de remediação.

Com este foco claro na segurança, proteção e responsabilização, as práticas de red teaming provavelmente serão consideradas favoravelmente pelos reguladores em todo o mundo, bem como alinhadas com a visão do governo do Reino Unido para o desenvolvimento responsável da IA.

Outra vantagem de configurar o red teaming como método de teste de IA é que ele pode ser usado tanto para segurança quanto para proteção. Porém, a execução e os objetivos são diferentes.

Para questões de segurança, o foco está em evitar que os sistemas de IA gerem informações prejudiciais; por exemplo, bloquear a criação de conteúdos sobre como construir bombas ou cometer suicídio e impedir a exibição de imagens potencialmente perturbadoras ou corruptoras, como violência, atividade sexual e automutilação. O seu objetivo é garantir o uso responsável da IA, descobrindo possíveis consequências ou preconceitos não intencionais, orientando os desenvolvedores a abordar proativamente os padrões éticos à medida que constroem novos produtos.

Um exercício de red teaming para segurança de IA assume um ângulo diferente. O seu objetivo é descobrir vulnerabilidades para impedir que agentes maliciosos manipulem a IA para comprometer a confidencialidade, integridade ou disponibilidade de uma aplicação ou sistema. Ao expor rapidamente as falhas, esse aspecto do red teaming ajuda a identificar, mitigar e remediar riscos de segurança antes que eles sejam explorados.

Para uma indicação real de suas capacidades, o lançamento do recurso Extensions AI da Bard fornece um exemplo valioso. Essa nova funcionalidade permitiu que Bard acessasse o Google Drive, o Google Docs e o Gmail, mas 24 horas após a entrada em operação, hackers éticos identificaram problemas que demonstravam que ele era suscetível à injeção indireta imediata.

Isso colocou as informações de identificação pessoal (PII) em grave risco, incluindo e-mails, documentos de unidade e locais. Se não fosse verificada, esta vulnerabilidade poderia ter sido explorada para exfiltrar e-mails pessoais. Em vez disso, os hackers éticos reportaram prontamente ao Google através do seu programa de recompensas de bugs, que resultou em 20.000 dólares em recompensas – e uma potencial crise foi evitada.

A diversidade de talentos faz a diferença

Essa qualidade da equipe vermelha depende de conjuntos de habilidades diversificados e cuidadosamente selecionados como base para avaliações eficazes. A parceria com a comunidade de hackers éticos por meio de uma plataforma reconhecida é uma forma confiável de garantir que talentos sejam provenientes de diferentes origens e experiências, com habilidades relevantes necessárias para testar rigorosamente a IA.

Os hackers são conhecidos por serem movidos pela curiosidade e pensarem fora da caixa. Eles oferecem às organizações perspectivas externas e novas sobre os desafios de segurança e proteção em constante mudança.

Vale a pena notar que quando os membros da red teaming têm a oportunidade de colaborar, o seu resultado combinado torna-se ainda mais eficaz, excedendo regularmente os resultados dos testes de segurança tradicionais. Portanto, facilitar a cooperação entre equipes é uma consideração fundamental. Conseguir uma combinação de indivíduos com diversas habilidades e conhecimentos proporcionará os melhores resultados para implantações de IA.

Desenvolvendo os melhores programas de recompensa de bugs

Adaptar o modelo de incentivo para um programa de hacking ético também é vital. O modelo mais eficiente inclui o incentivo aos hackers de acordo com o que é mais impactante para uma organização, em conjunto com recompensas pela obtenção de resultados de segurança específicos.

Com base na abordagem estabelecida de recompensas por bugs , esta nova onda de red teaming aborda os novos desafios de segurança e proteção colocados pela IA que as empresas devem enfrentar antes de lançar novas implantações ou rever produtos existentes.

Testes ofensivos direcionados que aproveitam as habilidades coletivas de hackers éticos proficientes em IA e hacking imediato de LLM ajudarão a fortalecer sistemas e processos. Ele protegerá contra vulnerabilidades potenciais e resultados não intencionais perdidos por ferramentas automatizadas e equipes internas. É importante ressaltar que garante a criação de aplicações de IA mais resilientes e seguras que defendem os princípios da “IA responsável”.