#009 - Os Agentes de IA estão se Auto-replicando

Em uma única semana, a Palisade Research mostrou auto-replicação de agente saindo de 6% para 81% em doze meses. O GPT-5.5 cobrou 49 a 92% mais que o modelo anterior. ByteDance e Kuaishou passaram OpenAI e Google no ranking de vídeo gerado por IA. E Wendy's, Burger King e McDonald's colocaram agentes de IA de atendimento por voz em mais de 1.500 drive-thrus.

Gostinho de "quero mais"

Ontem (16-05) Aconteceu o Intensivo Claude Code. Reunimos + de 300 empresários de todas as áreas pra mais de 6 horas de conteúdo sobre o uso de IA para Marketing, vendas e Gestão.

Gostaria de agradecer a todos que participaram e te avisar para da próxima vez não perca a oportunidade de participar das Imersões que fazemos aqui.

Além disso, abri inscrições para o AI CIRCLE, um programa de Mentoria com 12 Semanas de duração, focado na criação, estruturação e implementação de Rotinas automatizadas de IA para empresas. Se você se interessa em conhecer mais sobre o programa, basta preencher esse formulário e meu time entra em contato com você.

Segunda Edição do Intensivo Claude Code com mais de 300 empresários

Nesta edição

Auto-Replicação de agentes de IA saiu de 6% para 81% em menos de 1 ano
O GPT-5.5 cobrou de 49% a 92% mais que o modelo anterior
ByteDance e Kuaishou e o avanço das IAs de vídeo
1.500 drive-thrus já têm agente por voz
Notícias rápidas
Opinião do Mateus

Auto-Replicação de agente saiu de 6% para 81% em menos de 1 ano

A Palisade Research, laboratório especializado em risco emergente de IA, publicou no GitHub em 7 de maio o primeiro estudo a documentar de ponta a ponta agentes que invadem máquinas remotas, copiam a si mesmos para elas e formam cadeias de replicação. Em ambiente controlado com três alvos diferentes, agentes baseados em Qwen 3.6, GPT-5.4 e Claude Opus 4 invadiram a máquina, roubaram as credenciais, transferiram os próprios arquivos, subiram um servidor de inferência na máquina nova e começaram o ataque seguinte a partir dali.

Os números são o que importa. Em 2025, a taxa de sucesso era 6%. Em 2026, com a mesma metodologia, 81%. Em doze meses. Cada replicação levou em média 50 minutos. Num único teste, um agente saltou entre máquinas no Canadá, EUA, Finlândia e Índia. Para o agente, atravessar uma fronteira nacional foi o mesmo que pular de uma máquina para outra na mesma cidade.

A novidade técnica não é o ataque em si. Watkins, especialista em segurança ofensiva ouvido pela Live Science, lembrou que cada passo isolado já era conhecido. A novidade é a curva. Vírus tradicional precisava de ciclo de desenvolvimento humano, teste manual e distribuição controlada. Agente de IA melhora quase sozinho, acompanhando o ganho de capacidade dos modelos por baixo. Crescimento de mais de treze vezes em um ano não tem paralelo.

A separação que importa para quem opera é entre modelo com pesos abertos (open weight, tipo Qwen, Llama) e modelo acessado via API (Claude, GPT). O Qwen 3.6, que é open weight, copia os próprios pesos do modelo para a máquina alvo e fica funcionando ali. Claude e GPT, que são API, não têm acesso aos próprios pesos, então no estudo os pesquisadores simularam fazendo o agente subir um Qwen na máquina alvo. Conclusão prática: o caminho principal de replicação é open weight. Quem só roda API ainda tem uma camada extra de proteção, mas se o agente API tem permissão de saída na rede e permissão de escrita em arquivos, ele consegue subir um modelo open weight no alvo e usar como veículo.

Fontes: the-decoder | Live Science | AI Breakfast

O GPT-5.5 cobrou de 49% a 92% mais que o modelo anterior

A OpenAI lançou o GPT-5.5 em 24 de abril e dobrou o preço de tabela em relação ao GPT-5.4. O preço de entrada subiu de 2,50 para 5 dólares por 1 milhão de tokens. O preço de saída subiu de 15 para 30 dólares. O argumento oficial: o modelo é "menos verboso", então o gasto efetivo cairia. O OpenRouter, que é uma plataforma que centraliza acesso a modelos de IA, testou o argumento na prática. Olhou os dados de quem migrou de 5.4 para 5.5 e mediu quanto cada um estava pagando antes e depois. A história saiu diferente do anúncio oficial.

Os números, por tamanho de prompt:

Abaixo de 2 mil tokens, o custo real por milhão de tokens passou de 4,89 para 9,37 dólares. Aumento de 92%.
Entre 2 mil e 10 mil tokens: +69%
Entre 10 mil e 25 mil: +51%
Entre 50 mil e 128 mil: +49%
Acima de 128 mil tokens: +85%

A promessa de o modelo "responder em menos palavras" só apareceu em prompts acima de 10 mil tokens, e mesmo assim só amortece a conta. Em prompt curto, a resposta saiu do mesmo tamanho ou maior. O cliente paga quase o dobro.

A Anthropic seguiu o mesmo caminho, com cosmética diferente. O Opus 4.7 não teve aumento de preço de tabela, mas a Anthropic mudou a forma como o modelo conta tokens internamente (o tokenizador). Resultado prático medido pelo OpenRouter: prompts longos saem entre 30% e 40% mais caros. Prompts curtos podem economizar um pouco. Ou seja, as duas principais empresas de IA aumentaram o preço efetivo no mês de abril, cada uma por um caminho.

A explicação de fundo é financeira. O The Register reportou que a OpenAI projeta perda de 14 bilhões de dólares em 2026. A Anthropic projeta perda de 11 bilhões. As duas caminham para abrir capital na bolsa (IPO). Com investidor olhando margem, preço não cai. Sobe.

Vale a análise essa semana:

Auditar o tamanho médio de prompt que você usa. Se a maior parte da operação roda abaixo de 10 mil tokens, manter no GPT-5.4 (que segue disponível) ou migrar pro Claude Sonnet 4.6.
Ativar o cache de prompt para qualquer instrução repetitiva (instrução base do bot, contexto fixo do cliente). O cache no GPT-5.5 sai a 50 centavos por milhão de tokens, ou seja, 10% do preço normal.
Avaliar a API em lote (Batch) ou a API com latência variável (Flex), que cortam o preço pela metade para qualquer carga de trabalho que tolere resposta em até 24 horas. Geração de conteúdo, classificação em massa e enriquecimento de leads cabem em modo Batch sem perda nenhuma.

Fontes: OpenRouter | The Register | the-decoder | OpenAI

ByteDance e Kuaishou e o avanço das IAs de vídeo

O ranking de preferência humana do Artificial Analysis para geração de vídeo (ELO, pontuação que mede quem ganha em testes cegos entre dois vídeos gerados)

Em maio:

Top 1: Seedance 2.0 (ByteDance) com 1.269 pontos
Top 2: Kling 3.0 (Kuaishou) com 1.248 pontos
Top 3: Veo 3.1 (Google) com ~1.226 pontos
Sora 2 (OpenAI): não aparece com pontuação consistente

Em menos de dezoito meses, dois laboratórios chineses passaram os dois nomes maiores do Vale do Silício.

Os números de operação do Kling explicam a relevância. O modelo da Kuaishou foi lançado em 5 de fevereiro de 2026 e em poucos dias chegou ao topo do ranking ELO. Reporta:

60 milhões de criadores registrados
600 milhões de vídeos gerados
30 mil clientes corporativos
Receita recorrente anual (ARR) de cerca de 240 milhões de dólares
Só em dezembro de 2025, fez 20 milhões de dólares (mais que o dobro da meta interna da Kuaishou para o ano todo)
Ação da empresa em Hong Kong subiu 23,3% no último mês

O Seedance 2.0 tem pontuação ELO mais alta que o Kling, mas ainda está em lançamento só na China, via Doubao, Jimeng e Volcano Engine. O acesso global via API é esperado para o segundo trimestre de 2026. Quando chegar, vira a opção dominante no mercado internacional para criador de conteúdo e agência.

Do outro lado, o Sora 2 da OpenAI virou caso de estudo de produto que não converteu. Reportagens em maio mostraram:

300 dólares para gerar um minuto de vídeo em alta definição
Custo de computação diário acima de 1 milhão de dólares
Receita total acumulada desde o lançamento abaixo de 10 milhões de dólares

Forçou retração comercial. O Veo do Google segue forte para áudio cinematográfico e 4K, mas perdeu o ranking de preferência humana.

A ByteDance treina os modelos em vídeo do TikTok e do Douyin. Kuaishou treina em vídeo da própria plataforma. Nenhum competidor americano tem volume equivalente de vídeo curto humano com etiqueta, contexto e variação de cena. O Sora treinou em uma mistura de dado público sem essa profundidade de dado real do dia a dia. O resultado prático aparece em "movimento natural", "tecido balançando no vento" e "reflexo em superfície molhada", que são exatamente os critérios que os usuários pontuam nos testes cegos do ELO.

Para produtor de conteúdo no Brasil, gestor de tráfego, agência criativa: a combinação que valia em 2025 era Sora mais Veo. Em 2026, a combinação competitiva é Kling 3.0 como produção principal (7 centavos e meio de dólar por segundo, áudio nativo, sincronização labial em vários idiomas) e Veo 3.1 como complemento para áudio cinematográfico. Quem testar o Seedance 2.0 assim que abrir o acesso global ganha o primeiro ângulo. Atenção a uma ressalva real: a Kuaishou tem moderação muito agressiva. Bloqueia conteúdo médico, anatomia explícita, política e figura pública reconhecível. Para esses temas, manter um modelo com pesos abertos como plano B.

Fontes: Awesome Agents | SCMP | ThinkChina | WaveSpeed AI

1.500 drive-thrus já têm agente por voz

A The Verge publicou em 17 de maio uma coluna da Emma Roth puxando o fio do atendimento por voz com IA em fast food. O ponto não é o McDonald's. É o que a corrida do drive-thru ensina para o resto da economia de serviço.

Linha do tempo:

2021: McDonald's foi a primeira grande rede a colocar atendimento por voz com IA em 10 lojas em Chicago, em parceria com a IBM
2024: McDonald's cancelou a parceria depois que vídeos virais mostraram cliente sendo cobrado por 260 McNuggets que não pediu
2025: Wendy's escalou o sistema FreshAI (Google Cloud) para 500-600 lojas, com 99% de precisão no pedido e redução de 22 segundos no tempo de atendimento
2025: Taco Bell tentou em 650 lojas com Omilia e Nvidia, mas reverteu para uso parcial
2026: McDonald's voltou ao jogo com a plataforma Edge (Google Cloud), com balanças de precisão já em 12 mercados e planejamento de chegar a 43 mil restaurantes globalmente
2026: Burger King colocou o agente "Patty" (OpenAI) em 500 lojas, com expansão nacional planejada para o fim do ano
Janeiro de 2026: Papa John's lançou o primeiro Food Ordering Agent do Google Gemini

O denominador comum dos casos que funcionam é domínio fechado. Drive-thru é menu fixo, gírias regionais previsíveis e ambiente de áudio padronizado. O agente por voz acerta 99% na Wendy's e segura 12 mercados no McDonald's. Quando o cliente sai do menu (pergunta sobre alergia, muda item no meio do pedido, quer reembolso), o agente passa para um humano. Modelo híbrido vence modelo puramente automatizado.

A lição mais útil para quem está no Brasil não está no drive-thru. Está no KFC Índia. O bot da rede rodando em WhatsApp, sem voz, processou mais de 115 mil pedidos em seis meses. 67% dos clientes preferem o bot ao humano.

Faz 3 anos que estamos trabalhando na tecnologia do ChatFunnel e finalmente a Inteligência Artificial está ficando “Inteligente o Suficiente” para as pessoas preferirem atendimento por IA do que Atendimento Humano.

Fontes: The Verge | Deepgram | Finitless | Mashed

Notícias rápidas

Anthropic passou a OpenAI em adoção corporativa. Dados publicados em abril mostraram a Anthropic quadruplicando a presença no mercado corporativo em doze meses, enquanto a OpenAI estagnou em crescimento de 0,3%. O CFO da Anthropic, Krishna Rao, revelou que a receita anualizada (run-rate) saiu de 250 milhões para 30 bilhões de dólares em dois anos. Fonte: LinkedIn AI Insiders.

Claude vai entrar em QuickBooks, PayPal, HubSpot, Workspace e M365. A Anthropic lançou um pacote massivo de integrações nativas para pequenas e médias empresas. Fonte: LinkedIn AI Insiders.

Palantir chama IA dos concorrentes de "slop". A ação subiu cerca de 16 vezes desde o lançamento da plataforma de IA da empresa em 2023. Executivos repetiram em entrevistas da semana que outras IAs são "porcaria" (slop). Ou estão com razão e o retorno real de IA aplicada vale 16x, ou estão se protegendo de comoditização. Fonte: WSJ via Techmeme.

CEO da Mistral pede à França que bloqueie a Anthropic Mythos em código militar. Arthur Mensch alertou o governo francês contra deixar a Anthropic varrer bases de código de defesa. Sinal estatal de soberania tecnológica. Fonte: the-decoder.

Anthropic e OpenAI conversam com líderes religiosos sobre ética. Não é estratégia de marca. As duas estão pedindo conselho para incorporar critério ético nos modelos. Ética virou produto para mercado regulado. Fonte: the-decoder.

Auto-replicação - Devemos correr para as montanhas?

É óbvio que os testes de duplicação e auto-replicação desses agentes ainda estão sendo feitos em laboratório. Mas isso me preocupa muito.

Os novos modelos de inteligência artificial provavelmente vão vir melhores do que os modelos atuais. E se os modelos atuais já estão tendo esse nível de auto-replicação, esse nível de sucesso em ataques, em produção de vírus e em distribuição de malware pela internet, significa que a próxima etapa de agentes de IA vai elevar esse nível ainda mais.

E é por isso, inclusive, que a Anthropic está segurando o lançamento do modelo Mythos. Segundo as fontes, ele tende a ser cinco vezes mais inteligente do que os modelos atuais. O Mythos foi disponibilizado para as quarenta maiores empresas de tecnologia, para que elas preparem os sistemas de segurança antes que o modelo seja lançado para o público.

Tem ainda um outro ponto. Nós, e estou usando "nós" de propósito, não podemos nos preocupar só com o aumento de custo das inteligências artificiais.

Precisamos criar sistemas que sejam fluidos entre os modelos de IA. Não podemos depender de uma única empresa ou de um único fornecedor de inteligência artificial.

Abraços! Mateus Dias