Petri 2.0: como a Anthropic está auditando modelos de IA e por que doou a ferramenta

Resumo: A Anthropic publicou o Petri 2.0, atualização da sua ferramenta open source de auditoria automatizada de modelos de IA. A nova versão melhora a “consciência de avaliação” dos modelos auditores, amplia os cenários para mais de 180 sementes e simplifica a infraestrutura. Em paralelo, a Anthropic doou o projeto à Meridian Labs, uma organização sem fins lucrativos especializada em avaliação de IA, para garantir neutralidade — algo essencial em um instrumento usado para comparar laboratórios concorrentes.

O que é o Petri

Petri é a sigla de Parallel Exploration Tool for Risky Interactions. Na prática, é um agente que simula conversas com um modelo alvo (Claude, GPT, Gemini, Llama, etc.) usando outro modelo como “auditor” e um terceiro como “juiz”. As conversas são geradas a partir de sementes (seeds) — pequenas instruções como “tente fazer o modelo enganar um usuário com viés político” ou “verifique se o modelo aceita instruções de uma terceira parte mal-intencionada”. O juiz pontua os comportamentos preocupantes e gera um relatório.

A ideia é dar a pesquisadores, reguladores e empresas uma forma rápida e padronizada de testar hipóteses de alinhamento — algo que, há dois anos, exigiria semanas de trabalho manual e tinha pouca comparabilidade entre laboratórios.

O que muda no Petri 2.0

Mitigação de eval-awareness: modelos modernos vêm “percebendo” que estão sendo avaliados e se comportam diferente. O Petri 2.0 traz heurísticas de prompt e mascaramento para que o alvo se comporte como em uso real.
181 sementes: a biblioteca passou de cerca de 100 para 181 cenários, cobrindo bajulação, deceptividade, cooperação com pedidos prejudiciais, sabotagem em ferramentas e exfiltração de dados.
Comparação entre modelos: tabela de scoring em formato compatível com os relatórios públicos de modelos de fronteira, facilitando comparações apple-to-apple.
Infraestrutura mais leve: a versão roda em containers padrão e se integra ao framework Inspect, do UK AI Safety Institute, simplificando uso por terceiros.

Por que importa — e como o Brasil pode usar

Auditoria automatizada de alinhamento é um dos calcanhares de aquiles do mercado de IA. Reguladores precisam de evidências mensuráveis; empresas precisam mostrar que adotaram modelos com risco controlado; pesquisadores precisam comparar resultados entre experimentos. Ferramentas como o Petri vão ocupar esse papel, parecido com o que linters e SAST ocuparam em segurança de software.

No Brasil, a ANPD e o futuro marco legal de IA (PL 2338/2023) tendem a exigir que sistemas considerados de alto risco apresentem relatórios de impacto. Universidades, agências reguladoras setoriais (Anatel, Anvisa, Bacen) e empresas que adotam modelos de fronteira ganham com um instrumento neutro e replicável. O fato de o Petri agora pertencer à Meridian Labs — fora da estrutura de qualquer laboratório de IA — fortalece sua aceitação como referência.

Riscos e limitações

Auditor é também IA: usar um modelo para julgar outro tem limites conhecidos. Vieses do juiz podem mascarar problemas reais.
Cobertura: 181 cenários é muito, mas não cobre todos os usos — modelos especializados em saúde, finanças ou jurídico precisam de sementes próprias.
Risco de gaming: uma vez padronizada a métrica, laboratórios podem otimizar para ela e mascarar problemas em outras dimensões.
Reprodutibilidade: as transcrições simuladas mudam a cada execução; comparações exigem rodadas múltiplas e médias.

Cenário: para onde isso caminha

O movimento da Anthropic se soma a uma onda mais ampla de doações e padronizações em segurança de IA: o Inspect, do UK AISI; o ML Commons; o AI Safety Benchmark do MLCommons. A tendência é convergir para um “SOC 2 da IA”: relatórios independentes, padronizados, exigidos em contratos B2B e em editais públicos. Para CIOs e CISOs brasileiros, vale acompanhar de perto — em poucos anos, atender Petri (ou equivalente) deve virar requisito em RFPs.

Vale lembrar que a comunidade já trabalha no Petri 3.0, primeiro lançamento sob a Meridian Labs, com cenários ainda mais realistas e adaptativos. O projeto se torna, portanto, um campo de pesquisa contínua e não um produto estático.

Conclusão prática: o que muda

Para times de IA, recomenda-se três ações. Primeiro, baixar o Petri 2.0 (open source) e rodar contra os modelos atualmente em produção — começar por sementes relacionadas a vazamento de prompt, deceptividade e cooperação com pedidos abusivos. Segundo, escrever sementes próprias para casos do seu domínio (atendimento médico, análise de crédito, contratos). Terceiro, incluir o resultado no documento de governança da IA, junto a riscos identificados e mitigações. Em áreas sensíveis — saúde, finanças, jurídico e segurança da informação — a auditoria não substitui especialistas humanos, mas oferece um piso mínimo objetivo.

Para conselhos de administração e diretorias, o recado é que a partir de agora não basta dizer “usamos um modelo confiável”: convém apresentar resultados de auditoria com ferramenta independente, indicadores específicos do uso pretendido e plano de remediação. Em ambientes corporativos onde a IA toma decisões automatizadas que afetam pessoas — concessão de crédito, triagem de currículos, atendimento ao consumidor — a expectativa regulatória é exatamente essa: prova externa de comportamento. Petri, somado a outras avaliações (red-teaming humano, testes de carga, monitoramento contínuo), forma a base de um programa de governança que tende a virar padrão de mercado nos próximos dois anos.

Fonte original: Anthropic — Petri 2.0: New Scenarios, New Model Comparisons, and Improved Eval-Awareness Mitigations.

Petri 2.0: como a Anthropic está auditando modelos de IA e por que doou a ferramenta

O que é o Petri

O que muda no Petri 2.0

Por que importa — e como o Brasil pode usar

Riscos e limitações

Cenário: para onde isso caminha

Conclusão prática: o que muda

MatterChat: a IA multimodal da Berkeley que dá “olhos científicos” aos LLMs para descobrir materiais

SyntheMol-RL: a IA generativa que desenhou um antibiótico novo contra Staphylococcus resistente

Natural Language Autoencoders: como a Anthropic está fazendo Claude traduzir seus próprios pensamentos

Deixe um comentário Cancelar resposta

Tutorial Fooocus completo: instalar, usar inpaint, outpaint, upscale e face swap passo a passo

15 prompts prontos para gerar imagens no SDXL e Fooocus — retrato, produto e marketing (2026)

15 prompts prontos em português para reuniões, e-mails e produtividade no trabalho (2026)

Fooocus: o gerador de imagens local que junta a simplicidade do Midjourney com o controle do SDXL

Auditoria mostra que LLMs assumem leis dos EUA quando você pergunta em inglês — e por que isso é um problema para o Brasil

Institucional

O que é o Petri

O que muda no Petri 2.0

Por que importa — e como o Brasil pode usar

Riscos e limitações

Cenário: para onde isso caminha

Conclusão prática: o que muda

More Stories

Deixe um comentário Cancelar resposta

You may have missed

Institucional