Tutorial Fooocus completo: instalar, usar inpaint, outpaint, upscale e face swap passo a passo

Resumo: Este é um tutorial completo do Fooocus, o app de geração de imagens por IA criado por lllyasviel (autor do ControlNet). Em vez de listar botões, aqui cada conceito é explicado do zero: o que é Stable Diffusion XL, como o prompt vira pixel, o que significa inpaint, outpaint, upscale, variations, image prompt e face swap — quando usar cada um e por que funcionam. Tudo offline, gratuito, no seu computador. Tempo previsto: 60 a 90 minutos do download à primeira imagem refinada.

Antes de começar: o que é o Fooocus, na prática

Geradores de imagem por IA dividem-se em dois mundos. De um lado, ferramentas como Midjourney e Adobe Firefly: simples, mas pagas, online e com censura de servidor. De outro, ferramentas como ComfyUI e WebUI: poderosas, mas com curva de aprendizado de pesquisador. O Fooocus mora no meio. Ele usa Stable Diffusion XL (SDXL) por baixo, mas esconde todos os parâmetros técnicos atrás de uma interface limpa, parecida com a do Midjourney. Você escreve um prompt, clica em Generate, recebe uma imagem em alta qualidade. Quando quiser mais controle, basta marcar o checkbox Advanced.

Por baixo do capô, o Fooocus aplica automaticamente uma série de “truques” que normalmente exigiriam horas de configuração: expansão de prompt via GPT-2 local (estilo “Fooocus V2”), negative ADM guidance, self-attention guidance ajustado, sampler DPM++ 2M com scheduler Karras, e CFG corrigido por TSNR. O resultado é que prompts curtos como “house in garden” produzem imagens bonitas, sem que você precise saber o que cada uma dessas siglas significa.

Como Stable Diffusion XL funciona (em 90 segundos)

Entender o básico do modelo evita 90% das frustrações com Fooocus. O SDXL é um “modelo de difusão”. Imagine começar com uma imagem 100% de ruído (chuvisco de TV) e, em N passos (tipicamente 30), o modelo vai “removendo” ruído de forma controlada até restar a imagem que o seu prompt descreveu. O número de passos é o steps. A intensidade com que o modelo “obedece” ao prompt é o CFG Scale (3 a 7 costuma ser ideal no SDXL). O algoritmo que decide como remover o ruído é o sampler (o Fooocus usa DPM++ 2M Karras por padrão). E o ponto de partida do ruído é definido pelo seed — se você fixar o seed, a mesma imagem se repete; se trocar, muda tudo.

Importante: o SDXL foi treinado em algumas resoluções fixas. Por isso, no Fooocus, em vez de digitar largura e altura, você escolhe um Aspect Ratio da lista — 1024×1024, 1216×832, 832×1216, 1344×768, 768×1344, entre outras. Sair dessas proporções degrada a qualidade.

Requisitos mínimos por hardware

O Fooocus precisa de GPU Nvidia a partir de 4 GB de VRAM e 8 GB de RAM, com swap do sistema habilitada. Roda em AMD com penalidade (3× mais lento via DirectML no Windows; 1,5× via ROCm no Linux). Roda em Mac M1/M2 com penalidade pesada (9× mais lento). Roda em CPU em último caso (17× mais lento, ~30 minutos por imagem). Para uso confortável, uma RTX 3060 6 GB ou superior já entrega cerca de 1,35 segundo por iteração. Tenha pelo menos 40 GB livres em disco — os modelos pesam 6 a 8 GB cada, e o cache cresce rápido.

Passo 1: Download e instalação

Windows (o caminho de menor fricção)

Abra github.com/lllyasviel/Fooocus e baixe Fooocus_win64_2-5-0.7z. Cuidado com golpes: existem sites falsos como fooocus.com, fooocus.ai e fooocus.net. O único canal oficial é o repositório do GitHub.
Descompacte com 7-Zip em uma pasta com bastante espaço (ex.: D:Fooocus). Não use caminhos com espaços, acentos ou caracteres especiais.
Entre na pasta e execute run.bat. Não precisa instalar Python — o Fooocus traz uma versão embarcada.

Linux (Anaconda — recomendado)

git clone https://github.com/lllyasviel/Fooocus.git
cd Fooocus
conda env create -f environment.yaml
conda activate fooocus
pip install -r requirements_versions.txt
python entry_with_update.py

Para abrir a interface acessível na rede local (útil para usar do celular ou de outro PC): adicione --listen --port 8888. Para AMD no Linux, troque o PyTorch padrão pelo ROCm: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.6.

Mac (Apple Silicon M1/M2)

Use Miniconda, PyTorch nightly com MPS (siga o guia oficial da Apple), clone o repositório e rode python entry_with_update.py. Se o carregamento de modelos travar, adicione --disable-offload-from-vram. Espere paciência: uma imagem que sai em 30 segundos em uma RTX 3060 leva 4 a 5 minutos em um M2.

Google Colab (sem GPU local)

Abra o notebook oficial fooocus_colab.ipynb no Colab, edite a última célula para !python entry_with_update.py --share --always-high-vram e rode. O --share cria um link público .gradio.live que dura enquanto a sessão estiver viva. Funciona no tier gratuito (T4), com o refiner desativado para caber na VRAM.

Passo 2: Primeira execução (o que está acontecendo)

Quando você roda run.bat pela primeira vez, o Fooocus baixa automaticamente o checkpoint padrão — o juggernautXL v8 Rundiffusion (~6,6 GB), um SDXL refinado para qualidade fotográfica geral. Os arquivos vão para Fooocusmodelscheckpoints. O navegador abre em http://127.0.0.1:7865. Se quiser pular para outro fluxo de uso, dois launchers alternativos baixam outros modelos:

run_realistic.bat — baixa realisticStockPhoto v20, ideal para retratos, produto e fotografia editorial.
run_anime.bat — baixa animaPencilXL v500, ideal para ilustração estilizada, mangá e personagens.

Você pode alternar entre presets dentro da interface depois, mas a primeira inicialização sempre baixa o modelo correspondente — então escolha conforme o uso principal.

Passo 3: Anatomia de um bom prompt

O SDXL foi treinado em inglês com legendas descritivas de fotos e arte. Por isso, prompts em inglês entregam resultado bem melhor que em português. A receita que funciona consiste em quatro blocos colados na mesma frase, na ordem: tipo de imagem + sujeito + cenário/iluminação + termos técnicos de câmera/qualidade.

Exemplo, comentado:

professional portrait of a smiling woman in her 30s,    ← sujeito
sitting at a sunlit coffee shop, warm window light,     ← cenário + iluminação
Canon 5D Mark IV, 85mm lens, f/1.8, shallow depth of    ← câmera/lente/abertura
field, bokeh background, photorealistic, ultra detailed ← qualidade

Vocabulário fotográfico ajuda muito: golden hour, Rembrandt lighting, softbox, cinematic, bokeh, shallow depth of field. Para evitar resultados ruins, use o Negative Prompt (em Advanced > Setting) com algo curto: cartoon, illustration, anime, painting, 3D render, extra fingers, deformed, low quality. Diferente do SD 1.5, o SDXL não precisa de negative prompts longos.

Para reforçar uma palavra, use peso: (red dress:1.3) dá 30% mais ênfase. Para reduzir, [blue sky:0.8]. Esses valores são opcionais.

Passo 4: O painel Advanced explicado

Marque Advanced (canto inferior direito). Aparecem três abas que valem entender:

Aba Setting

Performance: Speed (30 steps), Quality (60 steps), Extreme Speed (8 steps via LCM), Lightning (4 steps). Speed é o equilíbrio padrão. Quality dobra o tempo, melhora detalhe. Lightning é para iterar prompts rapidamente.
Aspect Ratios: sempre escolha um da lista — não tente proporções customizadas, o SDXL distorce.
Image Number: quantas imagens gera por clique. 4 é um bom número para “iterar visualmente”.
Image Seed: deixe em “Random” enquanto explora; quando achar uma composição boa, anote o seed e fixe para refinar com pequenas mudanças no prompt.
Image Sharpness: entre 0 e 30. Padrão 2. Acima de 5, a pele e a textura ficam sintéticas. Reduza para 1 ou 0 se quiser pele mais natural em retratos.
Guidance Scale (CFG): 3 a 7 funciona. Acima de 8, a imagem fica “saturada” e o modelo super-obedece de forma feia. Para produto e composição limpa, 6 a 8 funciona. Para retrato natural, 3 a 5.

Aba Style

São dezenas de “estilos” pré-definidos que o Fooocus injeta na frente e atrás do seu prompt. Use 2 ou 3 combinados. Combinações que funcionam muito bem:

Retrato fotorrealista: Fooocus V2 + Fooocus Photograph + Cinematic.
Ilustração editorial: Fooocus V2 + Flat 2D Art + Editorial.
Produto: Fooocus V2 + Fooocus Photograph + Studio.

Aba Model

Aqui você troca o checkpoint base, ativa o refiner (em geral, desligue — o Fooocus já faz refiner swap nativo) e adiciona LoRAs. LoRAs são “miniajustes” do modelo — por exemplo, um LoRA específico para fotografia 35mm ou para um estilo de ilustração. Baixe de civitai.com, jogue em Fooocusmodelsloras, e ajuste o peso entre 0,4 e 0,8.

Passo 5: Image Prompt — o que é e quando usar

O que é: Image Prompt é quando você fornece uma imagem de referência (em vez de só texto) para guiar a geração. O modelo “olha” a referência e tenta replicar características — cores, composição, estilo, atmosfera — combinando com seu prompt textual. É equivalente ao recurso de mesmo nome do Midjourney.

Quando usar: três cenários típicos. Primeiro, padronizar a “vibe” de uma campanha — você usa a mesma foto de referência para todas as variações para garantir consistência visual. Segundo, recriar uma cena vista em um filme ou foto sem ter o prompt original. Terceiro, transferir um estilo de ilustração específico para um sujeito novo.

Como usar:

Marque Input Image > aba Image Prompt.
Arraste até quatro imagens de referência (ou uma só).
Em Advanced dentro da aba, ajuste dois sliders por imagem: Stop At (até que ponto do processo de difusão a referência influencia — 0.6 é seguro) e Weight (intensidade — 0.6 é seguro).
Escreva um prompt complementar e clique Generate.

Passo 6: Inpaint — o que é, por que importa e como funciona

O que é: “in-painting” significa “pintar dentro”. É a técnica de regenerar apenas uma área específica de uma imagem que você já tem, mantendo o resto intacto. Você marca a região com um pincel (cria uma “máscara”), descreve o que deve aparecer ali, e o modelo redesenha só aquela parte, costurando o resultado nas bordas para parecer natural.

Quando usar: remover um objeto indesejado (uma placa, uma pessoa ao fundo), corrigir uma mão com dedos a mais, mudar a cor de uma roupa, trocar o fundo de uma foto de produto, refazer o céu, adicionar um elemento que faltou. Em fotografia profissional, substitui boa parte do trabalho de retoque manual no Photoshop para casos não críticos.

Como usar no Fooocus:

Marque Input Image > aba Inpaint or Outpaint.
Carregue a imagem original. A área de desenho fica logo abaixo.
Pinte com o pincel a região que quer alterar. Use traço generoso — o algoritmo trabalha melhor com máscara um pouco maior do que o objeto.
No campo de prompt, descreva apenas o que deve aparecer na área pintada. Não descreva a imagem inteira. Exemplos: green forest background, professional hand holding a glass, blue silk dress.
Em Advanced dentro da aba, escolha o método de inpaint: Improve Detail (mudanças sutis no que já existe), Modify Content (substituição real), Inpaint or Outpaint (auto).
Clique Generate. Na primeira vez, o Fooocus baixa o modelo próprio inpaint_v26.fooocus.patch (1,28 GB), que dá resultados consistentemente melhores que o inpaint padrão do SDXL.

Dica avançada: se a borda ficar visível (“emenda” aparente), aumente o tamanho do pincel para gerar mais “contexto” ao redor da área de mudança. Inversamente, se o modelo mudar partes que você não queria, refaça com máscara menor.

Passo 7: Outpaint — expandindo a moldura

O que é: “out-painting” é o oposto do inpaint. Em vez de regenerar uma parte interna, o modelo expande a imagem para fora das bordas originais, inventando conteúdo plausível para os lados novos. Você decide se quer expandir para cima, baixo, esquerda, direita — ou várias direções ao mesmo tempo.

Quando usar: transformar um retrato vertical em banner horizontal sem cortar a cabeça. Adicionar “espaço para o texto” em uma foto que veio sem respiro. Reenquadrar uma cena para outro aspecto sem regenerar do zero. Salvar uma foto antiga que ficou apertada demais.

Como usar:

Mesma aba do inpaint: Input Image > Inpaint or Outpaint.
Em vez de pintar máscara, marque em Outpaint Direction as direções (Up, Down, Left, Right). Pode marcar várias.
Escreva um prompt curto descrevendo o que deve aparecer na expansão (ex.: extended living room with bookshelf) ou deixe vazio para o modelo “continuar” coerentemente.
Gere. O Fooocus expande, regenera bordas novas e costura o resultado.

Limitação importante: outpaints muito grandes (mais que ~30% da imagem original) começam a perder coerência. Para expansões grandes, faça em duas ou três passadas — cada uma menor.

Passo 8: Upscale — o que é, e por que não é só “esticar”

O que é: upscale aumenta a resolução de uma imagem. Mas “aumentar” no contexto de IA não é a mesma coisa que aumentar no Photoshop. Quando você arrasta uma imagem 1024×1024 para 2048×2048 no Photoshop, ele faz interpolação — calcula a média de pixels vizinhos e cria novos pixels borrados. Quando o Fooocus faz upscale 2x, ele regenera a imagem em alta resolução, adicionando detalhe que não existia: textura de pele, fios de cabelo, grão da madeira, traços de papel.

Quando usar: entregar uma imagem para impressão; preparar arte para banner grande; melhorar uma foto antiga de baixa resolução; preservar detalhe ao recortar um pedaço da imagem original.

Como usar: em Input Image > Upscale or Variation, escolha:

Upscale (1.5x): aumenta 50%. Boa relação tempo/qualidade.
Upscale (2x): dobra. Demora mais, qualidade máxima.
Upscale (Fast 2x): 2x em velocidade. Usa modelo mais leve, sem regenerar tanto detalhe.

Passo 9: Variations — duas pessoas com o mesmo DNA

O que é: uma “variation” é uma nova imagem que mantém a essência da original (composição, cores, sujeito) mas muda alguns elementos. É como fotografar a mesma cena de novo, com pequena mudança de ângulo ou expressão. Funciona porque o modelo usa a imagem original como ponto de partida (em vez de ruído puro) e roda alguns passos de difusão a partir dali.

Quando usar: você gostou de uma composição mas o rosto saiu estranho — variation regenera com mesma estrutura. Você quer “três versões” da mesma cena para A/B testar. Você precisa de coerência entre slides de um deck.

Como usar:

Vary (Subtle): mantém quase tudo, muda detalhes pequenos. Ideal para corrigir mãos, rostos, simetria sem perder a composição.
Vary (Strong): mantém o tema e a paleta, mas reorganiza significativamente. Ideal para explorar variantes da mesma ideia.

Passo 10: Face Swap — o que é (e a parte legal disso)

O que é: face swap substitui o rosto de uma imagem gerada pelo rosto de uma pessoa real (a partir de uma foto de referência). O Fooocus usa a biblioteca InsightFace para detectar e extrair características faciais.

Como usar: em Input Image > Image Prompt, na aba Advanced, escolha FaceSwap. Carregue uma foto frontal nítida do rosto. Escreva o prompt da cena e gere.

Avisos jurídicos sérios: usar face swap com pessoas que não autorizaram é problema legal e ético. No Brasil, há proteção forte ao direito de imagem (Código Civil, art. 20; LGPD para tratamento de biometria; Lei 14.811/2024 para deepfakes em contexto sexual envolvendo menores; Lei 14.197/2021 sobre crimes contra a honra com IA). Para uso publicitário, contrate modelo, assine termo de cessão de imagem e consulte um advogado de propriedade intelectual. Para uso pessoal de fotos da própria família, sem fins comerciais nem ridicularizantes, o risco é menor mas a recomendação ética continua: peça consentimento.

Passo 11: Wildcards e arrays — gerando lotes inteligentes

Dois recursos para quem precisa produzir muito.

Wildcards: dentro do prompt, escreva __cor__ flower. Cada geração sorteará uma palavra do arquivo wildcards/cor.txt (você pode criar o seu — uma palavra por linha). Útil para gerar 50 variações de produto com diferentes cores, formatos ou cenários, em uma execução só.

Arrays: [[red, green, blue]] flower gera três imagens explicitamente — uma de cada cor. Aumente Image Number para 3 para receber todas. Diferente do wildcard, o array é determinístico.

Passo 12: Personalizando via `config.txt`

Após a primeira execução, surge Fooocusconfig.txt. Editando esse arquivo, você redefine pastas de modelo, sampler padrão, prompts negativos padrão, estilos default, LoRAs aplicadas automaticamente. Mude um campo por vez e teste — em caso de erro, apague o arquivo e o Fooocus restaura o padrão. Há também config_modification_tutorial.txt ao lado, com explicação de cada chave.

Troubleshooting comum (e o que cada erro significa)

“RuntimeError: CPUAllocator”: a memória virtual (swap) do Windows está desligada ou muito pequena. Ative em Configurações do Sistema > Desempenho > Avançado. Garanta 40 GB livres no drive.
Geração 10× mais lenta do que deveria: alguns drivers Nvidia acima da versão 532 têm regressão. Faça downgrade para o driver 531 (downloads oficiais no site da Nvidia).
“MetadataIncompleteBuffer” / “PytorchStreamReader”: o arquivo de modelo está corrompido. Apague e deixe o Fooocus baixar de novo.
Pele plástica / brilhante demais: ative o estilo Fooocus Photograph, reduza Image Sharpness para 1 ou 2, reduza CFG para 3-4.
Mãos com dedos a mais: use Inpaint, pinte só a mão e regenere com prompt natural realistic hand, five fingers, correct anatomy.
Crash em GPU baixa: rode com flag --always-low-vram ou --always-no-vram.
Modelo demora a carregar no Mac: adicione --disable-offload-from-vram.

Riscos e boas práticas

O Fooocus está em Limited Long-Term Support: o autor só corrige bugs, não migra para FLUX nem para arquiteturas mais novas. Para FLUX, o caminho recomendado pelo próprio autor é o WebUI Forge ou ComfyUI/SwarmUI. Imagens geradas por IA carregam vieses do treino — sub-representação de fenótipos brasileiros, estereótipos profissionais, marcas registradas vazadas. Revise sempre antes de uso comercial. Para temas sensíveis (saúde, finanças, jurídico, privacidade, segurança e imagem de crianças) prefira composições conceituais sem identidade aparente e, em qualquer dúvida, consulte profissional habilitado.

Conclusão prática

Em uma tarde de uso consistente, você sai do zero para um pipeline funcional: presets definidos, biblioteca de estilos favoritos identificada, três ou quatro prompts validados para o seu uso recorrente, fluxo de inpaint para correções rápidas. A partir daí, vale criar uma pasta de “receitas” — um arquivo de texto com seus melhores prompts, proporções, estilos e seeds memoráveis. Em duas semanas, o Fooocus substitui boa parte do trabalho que você fazia com assinaturas pagas para marketing, redes sociais, identidade visual e mockups de produto. Se algum dia precisar de FLUX ou modelo mais novo, o salto para o Forge é pequeno — a lógica de interface é parecida.

Fonte original: lllyasviel/Fooocus — GitHub.

Tutorial Fooocus completo: instalar, usar inpaint, outpaint, upscale e face swap passo a passo

Antes de começar: o que é o Fooocus, na prática

Como Stable Diffusion XL funciona (em 90 segundos)

Requisitos mínimos por hardware