Agentes preguiçosos: o vício escondido dos sistemas multi-LLM e o método que tenta forçar deliberação
Pesquisadores mostram que sistemas multi-agente de LLM colapsam em um único agente dominante. O paper propõe uma recompensa de deliberação para corrigir.
Resumo: Um paper recém-publicado no arXiv (categoria cs.CL) mostra que a arquitetura mais badalada de 2026 — dois agentes de LLM colaborando, um planejando e outro executando — sofre de uma falha sistêmica chamada lazy agent: um dos agentes assume o controle, o outro vira figurante e o sistema, na prática, vira um único modelo caríssimo. Os autores propõem uma recompensa de “deliberação” verificável que obriga o agente executor a descartar passos ruidosos e recomeçar quando preciso. A pesquisa mexe com a base do que muita gente está empilhando como “multi-agentes” hoje.
O que o paper realmente diz
O trabalho “Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation” (arXiv:2511.02303) analisa o padrão mais comum de sistema multi-agente: um agente meta-thinker que planeja e monitora o progresso, e um agente reasoner que executa cada subtarefa em turnos sequenciais. Em teoria, a separação de papéis deveria melhorar o raciocínio em problemas complexos. Na prática, os autores mostram matematicamente que existe um equilíbrio degenerado: um dos agentes tende a dominar a colaboração e o outro deixa de contribuir — comportamento que eles batizam de lazy agent.
O problema não é estético. Quando um agente “vai junto” sem agregar valor, o sistema deixa de ser multi-agente em qualquer sentido útil: paga-se o custo de inferência de dois modelos para obter o desempenho de um. E como o equilíbrio é estável (não é só um bug de treino), simplesmente “deixar rodar mais” não resolve.
A solução proposta: deliberação como ação explícita
Os autores introduzem duas mudanças. A primeira é uma métrica estável e eficiente de influência causal, que mede quanto cada agente está realmente afetando a resposta final. A segunda é uma ação extra disponível para o agente executor: reiniciar a cadeia de raciocínio. Esse “reset” vem amarrado a uma recompensa verificável que só é paga quando o agente consolida instruções, descarta passos contaminados por ruído e recomeça em melhor estado.
Em outras palavras: em vez de torcer para o segundo agente “acordar”, o sistema cria um incentivo material para que ele questione o que o primeiro entregou. Isso muda o jogo de RLHF tradicional, em que recompensas costumam premiar respostas finais corretas, mas não premiam a qualidade do processo deliberativo.
Por que isso importa para quem usa LLMs em produção
Praticamente todo framework de agente comercializado em 2025–2026 — de orquestradores open-source a plataformas corporativas — vende algum sabor de “multi-agente”. O paper sugere que, sem mecanismos explícitos de deliberação, esses pipelines podem estar entregando muito menos do que o marketing promete. Para quem está pagando duas chamadas de inferência por turno (planner + executor), o achado tem efeito direto no orçamento.
No Brasil, onde times de engenharia costumam montar agentes em cima de APIs do exterior, isso significa duas coisas. Primeiro: avaliar se o seu pipeline está, de fato, usando os dois modelos — basta medir a contribuição causal de cada um em uma amostra de tarefas. Segundo: revisar a função de recompensa ou de seleção. Se você estiver agregando respostas só por voto majoritário ou pela última saída, está reproduzindo o ambiente que favorece “agente preguiçoso”.
Riscos e limitações
O paper tem méritos claros, mas três cuidados são honestos. Primeiro, a análise teórica supõe agentes com objetivos compatíveis; em sistemas onde os papéis são realmente distintos (por exemplo, atacante e defensor em adversarial debate), o quadro pode ser diferente. Segundo, a ação de “restart” carrega custo computacional: descartar trabalho e reiniciar dobra inferências em alguns turnos — vale para tarefas difíceis, mas pode estourar o orçamento em casos triviais. Terceiro, “deliberação verificável” depende de critérios de verificação confiáveis; em domínios onde não existe um julgador automatizado (textos criativos, decisões abertas), a recompensa proposta vira heurística.
O que vem a seguir
O artigo conversa com uma onda recente de pesquisa que tenta tornar a colaboração entre LLMs algo mais do que “stack de prompts”. Trabalhos paralelos sobre latent collaboration e roteadores de inferência caminham na mesma direção: dar aos agentes mais canais de comunicação e mais incentivos para discordar. A aposta razoável para os próximos 12 meses é que frameworks de produção comecem a expor métricas de influência causal e algum sabor de “ação de discordância” como recurso de primeira classe.
O que muda na prática
Se você opera agentes hoje, três passos concretos: (1) instrumente o pipeline para medir a contribuição real de cada agente, e não só o resultado final; (2) experimente uma ação explícita de “reiniciar com consolidação” no agente executor, mesmo que apenas como heurística; (3) reveja a função de avaliação para premiar evidências de deliberação — desacordo construtivo, descarte de saídas ruins, retomada — e não apenas resposta correta. Multi-agente bem feito é mais barato do que parece; multi-agente mal feito é um único modelo pagando duas contas.
Fonte original: arXiv — Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation (Zhang et al., 2025).
