Na semana passada, mostrei como a Anthropic degradou seu próprio modelo para vender o upgrade. Sete dias depois, a OpenAI respondeu com o GPT-5.5, e os benchmarks mudaram a conversa.

Nesta edição:

  • GPT-5.5: O contra-ataque que mudou os benchmarks

  • GPT-5.5 vs Opus 4.7: Quem ganha, quem paga?

  • Mythos: A IA mais poderosa da Anthropic já está sendo usada.

  • Notícias rápidas

Ainda não entrou no grupo para garantir seu Ingresso do Intensivo Claude Code? Acesse Aqui e Receba uma condição MUUITO especial no Ingresso Lote 0

Mateus Dias

GPT-5.5: O contra-ataque que mudou os benchmarks

23 de abril de 2026. Exatamente 7 dias após a Anthropic lançar o Claude Opus 4.7, a OpenAI colocou o GPT-5.5 na mesa.

O timing não é coincidência.

O GPT-5.5 é o modelo mais ambicioso da OpenAI até hoje. A proposta: ser o cérebro de um "super app" que integra ChatGPT, Codex e navegação de IA em uma única plataforma empresarial. Na prática, um modelo que não apenas responde perguntas, mas executa tarefas completas. Escreve e debugga código, pesquisa na web, analisa dados, cria documentos e opera software até o trabalho estar pronto.

Os números sustentam a ambição, o modelo igualou ou superou profissionais da indústria em 84,9% das comparações. E na recuperação de contexto longo, entre 512K e 1M tokens, a distância é brutal: 74% contra 32,2%.

fonte: OpenAI

O preço: US$ 5 por milhão de tokens de entrada, US$ 30 de saída. Mais caro que o Opus 4.7 na saída (US$ 25), porém o GPT-5.5 promete usar menos tokens para completar as mesmas tarefas de código, compensando parte do custo.

A implicação prática: empresas que dependem de contexto longo, como análise de codebases inteiros, documentos jurídicos extensos ou pesquisa multi-fonte, têm agora um modelo que não perde informação no caminho. A diferença de 41,8 pontos em recuperação profunda não é detalhe técnico. É o tipo de vantagem que muda decisões de arquitetura.

GPT-5.5 vs Opus 4.7: Quem ganha, quem paga?

Na edição #004, analisei o lado da Anthropic: inflação de tokens de 37,4%, degradação do modelo anterior, custo por sessão subindo 30%. Agora, com o GPT-5.5 na mesa, a comparação fica completa.

A resposta curta: depende do que você faz.

Código agêntico e tarefas longas: GPT-5.5 vence e recuperação de contexto longo mostram vantagem clara em workflows que exigem planejamento e execução iterativa.

Resolução de PRs e orquestração de ferramentas: Opus 4.7 indicam superioridade quando a tarefa envolve diagnosticar e corrigir código existente, especialmente via integração com ferramentas externas.

Raciocínio científico: Empate técnico. GPQA Diamond (93,6% vs 94,2%) e Humanity's Last Exam (52,2% vs 54,7%).

Matemática de fronteira: GPT-5.5 dispara. FrontierMath Tier 4 (35,4% vs 22,9%) e ARC-AGI-2 (85% vs 75,8%).

O ponto central é o custo efetivo. Em 1.000 tarefas de código (50K input, 5K output cada), o GPT-5.5 custa US$ 400. O Opus 4.7, no papel, custa US$ 375. Mas ajustado pelo novo tokenizer, que consome até 1,35x mais tokens no mesmo conteúdo, o custo real do Opus sobe para US$ 425. A economia de preço por token desaparece.

Não existe "melhor modelo". Existe o modelo certo para cada tarefa. Codebases grandes e contexto longo acima de 256K tokens: GPT-5.5. Code review, PRs e integração de ferramentas via MCP: Opus 4.7. A decisão inteligente é rotear tarefas entre ambos, não casar com um só.

Mythos: A IA que você não pode acessar

Enquanto GPT-5.5 e Opus 4.7 disputam benchmarks públicos, a Anthropic opera um modelo que nenhum dos dois alcança. Apenas 40 organizações no mundo têm acesso.

O nome é Mythos Preview. A NSA já está usando. O acesso é restrito ao "Project Glasswing", programa que limita distribuição a organizações selecionadas. Serviços de inteligência do Reino Unido também participam, via AI Security Institute.

O diferencial: capacidades ofensivas de cibersegurança que a Anthropic considera perigosas demais para liberação ampla. A relação com o Pentágono é tensa. O Departamento de Defesa classificou a Anthropic como risco de segurança, tentou bloqueá-la como fornecedora e exigiu acesso irrestrito ao Mythos "para todos os fins legais". A Anthropic recusou, traçando limites em vigilância em massa e armas autônomas.

O CEO Dario Amodei se reuniu com autoridades da Casa Branca para discutir o impasse.

O modelo mais poderoso do mundo não está à venda na API. Os modelos públicos (GPT-5.5, Opus 4.7) representam o segundo tier, não o primeiro. Quando governos têm acesso exclusivo a capacidades que o mercado nem sabe que existem, a assimetria de poder cresce silenciosamente.

Fontes: The Decoder

Notícias Rápidas

  • Claude Design: a Anthropic compete com a Figma. A empresa lançou o Claude Design, ferramenta que cria interfaces e protótipos via linguagem natural com base no Opus 4.7. Detalhe: Mike Krieger, CPO da Anthropic (e brasileiro), saiu do conselho da Figma dias antes do anúncio. O "SaaSpocalypse" ganha mais um capítulo. Fontes: NotJournal.ai

  • 80% dos usuários de Claude ganham acima de US$ 100K/ano. Pesquisa Epoch AI + Ipsos nos EUA: 80% dos usuários ativos semanais do Claude vivem em domicílios com renda acima de US$ 100K. ChatGPT: 56%. Meta AI: 37%. O alcance absoluto do Claude, porém, é de apenas 6%, contra 37% do ChatGPT. Nicho premium com penetração limitada. Fontes: The Decoder

  • Manus AI conecta ao Instagram e automatiza social media. A Manus (adquirida pela Meta em dez/2025) liberou conector oficial que analisa posts, cria legendas, agenda publicações e gera dashboards analíticas automaticamente. O custo em créditos, porém, é o ponto que a audiência mais questiona.

  • OpenClaw vs Claude Managed Agents: tensão no open-source. A Anthropic lançou Managed Agents (US$ 0,08/sessão, fora da assinatura Max) após 3 meses observando o ecossistema open-source OpenClaw crescer. A comunidade acusa a empresa de copiar o modelo colaborativo e monetizar em cima.

Como eu estou usando os Modelos de IA

Opero com ambos os modelos todos os dias. Esta edição, assim como a #004 e a #005, foi escrita operando com eles na prática.

O que noto: o GPT-5.5 é impressionante em tarefas longas e agênticas. Para processar codebases inteiros, pesquisar em múltiplas fontes e executar workflows complexos, é o melhor modelo disponível hoje.

Mas quando o trabalho é iterar sobre código existente, fazer code review, diagnosticar bugs e orquestrar ferramentas, o Opus 4.7 ainda é superior. A integração com o ecossistema (Cursor, Claude Code, Bedrock) é mais madura.

Pare de tratar modelos de IA como time de futebol. Não existe "o melhor". Existe o certo para cada tarefa. Rotear entre GPT-5.5 e Opus 4.7 por tipo de trabalho é a decisão que maximiza resultado por cada real investido.

Abraços! Mateus Dias

P.S.: No dia 16-05 vai acontecer o Intensivo Claude Code - Uma Imersão de 6h ao vivo no Zoom focada em estruturação de um time de agentes de IA para Marketing, Vendas e Gestão. Aperte Aqui e entre no grupo para garantir o Ingresso Lote 0 com um valor camarada.

Keep Reading