Petri 2.0: como a Anthropic está auditando modelos de IA e por que doou a ferramenta
Anthropic lançou o Petri 2.0, agente de auditoria de alinhamento com novos cenários e mitigação de eval-awareness. A ferramenta foi doada à Meridian Labs. Entenda o que muda.
Resumo: A Anthropic publicou o Petri 2.0, atualização da sua ferramenta open source de auditoria automatizada de modelos de IA. A nova versão melhora a “consciência de avaliação” dos modelos auditores, amplia os cenários para mais de 180 sementes e simplifica a infraestrutura. Em paralelo, a Anthropic doou o projeto à Meridian Labs, uma organização sem fins lucrativos especializada em avaliação de IA, para garantir neutralidade — algo essencial em um instrumento usado para comparar laboratórios concorrentes.
O que é o Petri
Petri é a sigla de Parallel Exploration Tool for Risky Interactions. Na prática, é um agente que simula conversas com um modelo alvo (Claude, GPT, Gemini, Llama, etc.) usando outro modelo como “auditor” e um terceiro como “juiz”. As conversas são geradas a partir de sementes (seeds) — pequenas instruções como “tente fazer o modelo enganar um usuário com viés político” ou “verifique se o modelo aceita instruções de uma terceira parte mal-intencionada”. O juiz pontua os comportamentos preocupantes e gera um relatório.
A ideia é dar a pesquisadores, reguladores e empresas uma forma rápida e padronizada de testar hipóteses de alinhamento — algo que, há dois anos, exigiria semanas de trabalho manual e tinha pouca comparabilidade entre laboratórios.
O que muda no Petri 2.0
- Mitigação de eval-awareness: modelos modernos vêm “percebendo” que estão sendo avaliados e se comportam diferente. O Petri 2.0 traz heurísticas de prompt e mascaramento para que o alvo se comporte como em uso real.
- 181 sementes: a biblioteca passou de cerca de 100 para 181 cenários, cobrindo bajulação, deceptividade, cooperação com pedidos prejudiciais, sabotagem em ferramentas e exfiltração de dados.
- Comparação entre modelos: tabela de scoring em formato compatível com os relatórios públicos de modelos de fronteira, facilitando comparações apple-to-apple.
- Infraestrutura mais leve: a versão roda em containers padrão e se integra ao framework Inspect, do UK AI Safety Institute, simplificando uso por terceiros.
Por que importa — e como o Brasil pode usar
Auditoria automatizada de alinhamento é um dos calcanhares de aquiles do mercado de IA. Reguladores precisam de evidências mensuráveis; empresas precisam mostrar que adotaram modelos com risco controlado; pesquisadores precisam comparar resultados entre experimentos. Ferramentas como o Petri vão ocupar esse papel, parecido com o que linters e SAST ocuparam em segurança de software.
No Brasil, a ANPD e o futuro marco legal de IA (PL 2338/2023) tendem a exigir que sistemas considerados de alto risco apresentem relatórios de impacto. Universidades, agências reguladoras setoriais (Anatel, Anvisa, Bacen) e empresas que adotam modelos de fronteira ganham com um instrumento neutro e replicável. O fato de o Petri agora pertencer à Meridian Labs — fora da estrutura de qualquer laboratório de IA — fortalece sua aceitação como referência.
Riscos e limitações
- Auditor é também IA: usar um modelo para julgar outro tem limites conhecidos. Vieses do juiz podem mascarar problemas reais.
- Cobertura: 181 cenários é muito, mas não cobre todos os usos — modelos especializados em saúde, finanças ou jurídico precisam de sementes próprias.
- Risco de gaming: uma vez padronizada a métrica, laboratórios podem otimizar para ela e mascarar problemas em outras dimensões.
- Reprodutibilidade: as transcrições simuladas mudam a cada execução; comparações exigem rodadas múltiplas e médias.
Cenário: para onde isso caminha
O movimento da Anthropic se soma a uma onda mais ampla de doações e padronizações em segurança de IA: o Inspect, do UK AISI; o ML Commons; o AI Safety Benchmark do MLCommons. A tendência é convergir para um “SOC 2 da IA”: relatórios independentes, padronizados, exigidos em contratos B2B e em editais públicos. Para CIOs e CISOs brasileiros, vale acompanhar de perto — em poucos anos, atender Petri (ou equivalente) deve virar requisito em RFPs.
Vale lembrar que a comunidade já trabalha no Petri 3.0, primeiro lançamento sob a Meridian Labs, com cenários ainda mais realistas e adaptativos. O projeto se torna, portanto, um campo de pesquisa contínua e não um produto estático.
Conclusão prática: o que muda
Para times de IA, recomenda-se três ações. Primeiro, baixar o Petri 2.0 (open source) e rodar contra os modelos atualmente em produção — começar por sementes relacionadas a vazamento de prompt, deceptividade e cooperação com pedidos abusivos. Segundo, escrever sementes próprias para casos do seu domínio (atendimento médico, análise de crédito, contratos). Terceiro, incluir o resultado no documento de governança da IA, junto a riscos identificados e mitigações. Em áreas sensíveis — saúde, finanças, jurídico e segurança da informação — a auditoria não substitui especialistas humanos, mas oferece um piso mínimo objetivo.
Para conselhos de administração e diretorias, o recado é que a partir de agora não basta dizer “usamos um modelo confiável”: convém apresentar resultados de auditoria com ferramenta independente, indicadores específicos do uso pretendido e plano de remediação. Em ambientes corporativos onde a IA toma decisões automatizadas que afetam pessoas — concessão de crédito, triagem de currículos, atendimento ao consumidor — a expectativa regulatória é exatamente essa: prova externa de comportamento. Petri, somado a outras avaliações (red-teaming humano, testes de carga, monitoramento contínuo), forma a base de um programa de governança que tende a virar padrão de mercado nos próximos dois anos.
Fonte original: Anthropic — Petri 2.0: New Scenarios, New Model Comparisons, and Improved Eval-Awareness Mitigations.
