{"id":121,"date":"2026-06-10T06:15:09","date_gmt":"2026-06-10T09:15:09","guid":{"rendered":"https:\/\/plugged.ninja\/ai\/pesquisa\/petri-2-anthropic-auditoria-alinhamento-meridian-labs\/"},"modified":"2026-06-10T06:15:09","modified_gmt":"2026-06-10T09:15:09","slug":"petri-2-anthropic-auditoria-alinhamento-meridian-labs","status":"publish","type":"post","link":"https:\/\/plugged.ninja\/ai\/pesquisa\/petri-2-anthropic-auditoria-alinhamento-meridian-labs\/","title":{"rendered":"Petri 2.0: como a Anthropic est\u00e1 auditando modelos de IA e por que doou a ferramenta"},"content":{"rendered":"<p><strong>Resumo:<\/strong> A Anthropic publicou o Petri 2.0, atualiza\u00e7\u00e3o da sua ferramenta open source de auditoria automatizada de modelos de IA. A nova vers\u00e3o melhora a \u201cconsci\u00eancia de avalia\u00e7\u00e3o\u201d dos modelos auditores, amplia os cen\u00e1rios para mais de 180 sementes e simplifica a infraestrutura. Em paralelo, a Anthropic doou o projeto \u00e0 Meridian Labs, uma organiza\u00e7\u00e3o sem fins lucrativos especializada em avalia\u00e7\u00e3o de IA, para garantir neutralidade \u2014 algo essencial em um instrumento usado para comparar laborat\u00f3rios concorrentes.<\/p>\n<h2>O que \u00e9 o Petri<\/h2>\n<p>Petri \u00e9 a sigla de <em>Parallel Exploration Tool for Risky Interactions<\/em>. Na pr\u00e1tica, \u00e9 um agente que simula conversas com um modelo alvo (Claude, GPT, Gemini, Llama, etc.) usando outro modelo como \u201cauditor\u201d e um terceiro como \u201cjuiz\u201d. As conversas s\u00e3o geradas a partir de sementes (seeds) \u2014 pequenas instru\u00e7\u00f5es como \u201ctente fazer o modelo enganar um usu\u00e1rio com vi\u00e9s pol\u00edtico\u201d ou \u201cverifique se o modelo aceita instru\u00e7\u00f5es de uma terceira parte mal-intencionada\u201d. O juiz pontua os comportamentos preocupantes e gera um relat\u00f3rio.<\/p>\n<p>A ideia \u00e9 dar a pesquisadores, reguladores e empresas uma forma r\u00e1pida e padronizada de testar hip\u00f3teses de alinhamento \u2014 algo que, h\u00e1 dois anos, exigiria semanas de trabalho manual e tinha pouca comparabilidade entre laborat\u00f3rios.<\/p>\n<h2>O que muda no Petri 2.0<\/h2>\n<ul>\n<li><strong>Mitiga\u00e7\u00e3o de eval-awareness:<\/strong> modelos modernos v\u00eam \u201cpercebendo\u201d que est\u00e3o sendo avaliados e se comportam diferente. O Petri 2.0 traz heur\u00edsticas de prompt e mascaramento para que o alvo se comporte como em uso real.<\/li>\n<li><strong>181 sementes:<\/strong> a biblioteca passou de cerca de 100 para 181 cen\u00e1rios, cobrindo bajula\u00e7\u00e3o, deceptividade, coopera\u00e7\u00e3o com pedidos prejudiciais, sabotagem em ferramentas e exfiltra\u00e7\u00e3o de dados.<\/li>\n<li><strong>Compara\u00e7\u00e3o entre modelos:<\/strong> tabela de scoring em formato compat\u00edvel com os relat\u00f3rios p\u00fablicos de modelos de fronteira, facilitando compara\u00e7\u00f5es apple-to-apple.<\/li>\n<li><strong>Infraestrutura mais leve:<\/strong> a vers\u00e3o roda em containers padr\u00e3o e se integra ao framework <em>Inspect<\/em>, do UK AI Safety Institute, simplificando uso por terceiros.<\/li>\n<\/ul>\n<h2>Por que importa \u2014 e como o Brasil pode usar<\/h2>\n<p>Auditoria automatizada de alinhamento \u00e9 um dos calcanhares de aquiles do mercado de IA. Reguladores precisam de evid\u00eancias mensur\u00e1veis; empresas precisam mostrar que adotaram modelos com risco controlado; pesquisadores precisam comparar resultados entre experimentos. Ferramentas como o Petri v\u00e3o ocupar esse papel, parecido com o que linters e SAST ocuparam em seguran\u00e7a de software.<\/p>\n<p>No Brasil, a ANPD e o futuro marco legal de IA (PL 2338\/2023) tendem a exigir que sistemas considerados de alto risco apresentem relat\u00f3rios de impacto. Universidades, ag\u00eancias reguladoras setoriais (Anatel, Anvisa, Bacen) e empresas que adotam modelos de fronteira ganham com um instrumento neutro e replic\u00e1vel. O fato de o Petri agora pertencer \u00e0 Meridian Labs \u2014 fora da estrutura de qualquer laborat\u00f3rio de IA \u2014 fortalece sua aceita\u00e7\u00e3o como refer\u00eancia.<\/p>\n<h2>Riscos e limita\u00e7\u00f5es<\/h2>\n<ul>\n<li><strong>Auditor \u00e9 tamb\u00e9m IA:<\/strong> usar um modelo para julgar outro tem limites conhecidos. Vieses do juiz podem mascarar problemas reais.<\/li>\n<li><strong>Cobertura:<\/strong> 181 cen\u00e1rios \u00e9 muito, mas n\u00e3o cobre todos os usos \u2014 modelos especializados em sa\u00fade, finan\u00e7as ou jur\u00eddico precisam de sementes pr\u00f3prias.<\/li>\n<li><strong>Risco de gaming:<\/strong> uma vez padronizada a m\u00e9trica, laborat\u00f3rios podem otimizar para ela e mascarar problemas em outras dimens\u00f5es.<\/li>\n<li><strong>Reprodutibilidade:<\/strong> as transcri\u00e7\u00f5es simuladas mudam a cada execu\u00e7\u00e3o; compara\u00e7\u00f5es exigem rodadas m\u00faltiplas e m\u00e9dias.<\/li>\n<\/ul>\n<h2>Cen\u00e1rio: para onde isso caminha<\/h2>\n<p>O movimento da Anthropic se soma a uma onda mais ampla de doa\u00e7\u00f5es e padroniza\u00e7\u00f5es em seguran\u00e7a de IA: o Inspect, do UK AISI; o ML Commons; o AI Safety Benchmark do MLCommons. A tend\u00eancia \u00e9 convergir para um \u201cSOC 2 da IA\u201d: relat\u00f3rios independentes, padronizados, exigidos em contratos B2B e em editais p\u00fablicos. Para CIOs e CISOs brasileiros, vale acompanhar de perto \u2014 em poucos anos, atender Petri (ou equivalente) deve virar requisito em RFPs.<\/p>\n<p>Vale lembrar que a comunidade j\u00e1 trabalha no Petri 3.0, primeiro lan\u00e7amento sob a Meridian Labs, com cen\u00e1rios ainda mais realistas e adaptativos. O projeto se torna, portanto, um campo de pesquisa cont\u00ednua e n\u00e3o um produto est\u00e1tico.<\/p>\n<h2>Conclus\u00e3o pr\u00e1tica: o que muda<\/h2>\n<p>Para times de IA, recomenda-se tr\u00eas a\u00e7\u00f5es. Primeiro, baixar o Petri 2.0 (open source) e rodar contra os modelos atualmente em produ\u00e7\u00e3o \u2014 come\u00e7ar por sementes relacionadas a vazamento de prompt, deceptividade e coopera\u00e7\u00e3o com pedidos abusivos. Segundo, escrever sementes pr\u00f3prias para casos do seu dom\u00ednio (atendimento m\u00e9dico, an\u00e1lise de cr\u00e9dito, contratos). Terceiro, incluir o resultado no documento de governan\u00e7a da IA, junto a riscos identificados e mitiga\u00e7\u00f5es. Em \u00e1reas sens\u00edveis \u2014 sa\u00fade, finan\u00e7as, jur\u00eddico e seguran\u00e7a da informa\u00e7\u00e3o \u2014 a auditoria n\u00e3o substitui especialistas humanos, mas oferece um piso m\u00ednimo objetivo.<\/p>\n<p>Para conselhos de administra\u00e7\u00e3o e diretorias, o recado \u00e9 que a partir de agora n\u00e3o basta dizer \u201cusamos um modelo confi\u00e1vel\u201d: conv\u00e9m apresentar resultados de auditoria com ferramenta independente, indicadores espec\u00edficos do uso pretendido e plano de remedia\u00e7\u00e3o. Em ambientes corporativos onde a IA toma decis\u00f5es automatizadas que afetam pessoas \u2014 concess\u00e3o de cr\u00e9dito, triagem de curr\u00edculos, atendimento ao consumidor \u2014 a expectativa regulat\u00f3ria \u00e9 exatamente essa: prova externa de comportamento. Petri, somado a outras avalia\u00e7\u00f5es (red-teaming humano, testes de carga, monitoramento cont\u00ednuo), forma a base de um programa de governan\u00e7a que tende a virar padr\u00e3o de mercado nos pr\u00f3ximos dois anos.<\/p>\n<p><em>Fonte original:<\/em> <a href=\"https:\/\/alignment.anthropic.com\/2026\/petri-v2\/\" target=\"_blank\" rel=\"noopener nofollow\">Anthropic \u2014 Petri 2.0: New Scenarios, New Model Comparisons, and Improved Eval-Awareness Mitigations<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Anthropic lan\u00e7ou o Petri 2.0, agente de auditoria de alinhamento com novos cen\u00e1rios e mitiga\u00e7\u00e3o de eval-awareness. A ferramenta foi doada \u00e0 Meridian Labs. Entenda o que muda.<\/p>\n","protected":false},"author":1,"featured_media":122,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[],"class_list":["post-121","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-pesquisa"],"_links":{"self":[{"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/posts\/121","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/comments?post=121"}],"version-history":[{"count":0,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/posts\/121\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/media\/122"}],"wp:attachment":[{"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/media?parent=121"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/categories?post=121"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/plugged.ninja\/ai\/wp-json\/wp\/v2\/tags?post=121"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}