Meta planeja quatro chips MTIA em dois anos para fugir da Nvidia: o que muda no custo da inferência de IA
Meta detalha MTIA 300/400/450/500 com cadência de 6 meses, 10 petaflops FP8 no topo e ambição de cortar dependência da Nvidia em inferência.
Resumo: A Meta apresentou no blog AI at Meta o plano de quatro gerações do seu chip próprio de IA — MTIA 300, 400, 450 e 500 — para sair com lançamentos a cada seis meses entre 2026 e 2027. O MTIA 300 já está em produção para ranking e recomendação, o 400 saiu dos laboratórios para os data centers, o 450 entra em produção em massa no início de 2027 e o 500 promete 10 petaflops de FP8, TDP de 1.700 W e até 512 GB de HBM. É a aposta da empresa para reduzir dependência da Nvidia em inferência de IA generativa.
O que a Meta anunciou
A Meta publicou um post no AI at Meta detalhando o roadmap. A peça central é uma mudança de ritmo: enquanto a indústria fala em “uma geração nova de chip a cada um ou dois anos”, a Meta planeja entregar quatro gerações em dois anos, com cadência de seis meses ou menos. Para conseguir esse compasso, a empresa investiu em design modular reutilizável, onde blocos do MTIA 300 podem ser estendidos no 400 e no 450 sem rebuild completo da plataforma.
Em termos técnicos, cada geração tem foco. O MTIA 300 cuida do treino de ranking e recomendação — o coração algorítmico do feed de Facebook e Instagram. O 400 expande para inferência generativa em produção, com desempenho que a Meta diz ser competitivo com produtos comerciais líderes. O 450 dobra a largura de banda HBM em relação ao 400 e mira workloads onde a memória é gargalo. O 500 é o chip de topo, com 10 petaflops FP8 e capacidade para rodar modelos muito grandes em paralelo, mas a um TDP elevado de 1.700 W que pressiona o desenho térmico do data center.
Por que importa
A briga não é só técnica, é financeira. Cada GPU Nvidia de topo custa entre US$ 25 mil e US$ 40 mil, e empresas como Meta operam frotas na casa das centenas de milhares de unidades. Cortar essa conta em 20 ou 30% libera bilhões por ano para outros investimentos — e dá poder de barganha contra fornecedores. Para a Meta, há ainda uma motivação de produto: chips desenhados sob medida para os modelos da casa (Llama, Muse Spark, recomendação) costumam ter melhor relação tokens/Watt em workloads internos do que GPUs genéricas.
A nota não escondeu a ambição. A Meta já anunciou contratos paralelos com Nvidia e um acordo plurianual para comprar até US$ 100 bi em chips da AMD ao longo dos próximos anos, além de elevar o investimento em um data center no Texas para mais de US$ 10 bi. O MTIA é a peça que faltava para tornar essa frota híbrida e barata.
Status no Brasil
De forma indireta, a estratégia da Meta afeta o Brasil. A Hyperscale local — operada principalmente por AWS, Microsoft, Oracle e Huawei — depende do mesmo mercado de GPUs e HBM. Se grandes consumidores reduzem a demanda por GPUs Nvidia ao construir silício próprio, fica mais provável que o preço de aluguel de instâncias H100/B200 caia nas nuvens. Para times de IA brasileiros isso pode significar tokens mais baratos em provedores internacionais ao longo de 2027. Há também impacto direto: o Brasil é um dos maiores mercados de Instagram e WhatsApp, e as melhorias de inferência em MTIA atingem nossa base.
Riscos e limitações
Chip próprio em escala é difícil. A história recente é cheia de projetos que travaram em problemas térmicos, defeito de yield ou software incapaz de extrair o desempenho prometido. A Meta vem corrigindo isso com investimento pesado em compiler e em frameworks como PyTorch (de quem é dona). Ainda assim, anúncios de 10 petaflops FP8 só viram realidade quando a frota está rodando e medindo perda de pacote, energia e estabilidade. Vale acompanhar resultados independentes nos próximos meses.
Análise SWOT econômica
Cadência de 6 meses por geração; design modular reaproveitável; controle total da pilha (chip + software + modelo).
Maturidade limitada vs. CUDA; TDP de 1.700 W exige infra térmica específica; dependência de TSMC e HBM da Samsung/SK Hynix.
Redução de custo por inferência em ordem de magnitude; benchmark contra Nvidia força melhor preço; possível abertura futura via Bedrock-like.
Nvidia segue dominante; AMD MI500 e Google TPU pressionam por baixo; risco de o roadmap atrasar e travar o plano financeiro.
Cenário e indicativo de futuro
Se a Meta entregar as quatro gerações no ritmo prometido, o mercado de aceleradores de IA muda. Cada hyperscale passará a ser, na prática, uma fab de silício leve. Google já fez isso com TPU. Amazon com Trainium e Inferentia. Microsoft com Maia. Meta agora dobra a aposta. A consequência prática é maior pressão sobre margens da Nvidia, queda no preço de inferência em janelas de 12 a 18 meses e a chegada de pelo menos uma alternativa sólida ao monopólio CUDA — provavelmente baseada em PyTorch 2.x com kernels customizados.
Conclusão prática
Para um CTO no Brasil, o recado é planejamento. Não vale apostar todas as fichas em uma única plataforma. Modelos e pipelines de inferência precisam ser portáveis entre CUDA, ROCm e backends customizados (Triton, OpenXLA, PyTorch compile). Assim, quando o custo de tokens cair em provedores que adotam alternativas à Nvidia, sua empresa pode aproveitar sem refatoração. Para acionistas, é o sinal de que a Meta passou a competir não só em modelos, mas no andar de baixo da pilha — e isso é onde a margem realmente está.
Fonte original: Four MTIA Chips in Two Years: Scaling AI Experiences for Billions — AI at Meta.
