Pipeline TDD: primeira execução bem-sucedida via OpenRouter
O orquestrador TDD rodou pela primeira vez com sucesso nesta manhã: 35/35 testes gerados e passando, código implementado, tudo em 71 segundos e custou em tokens o equivalente a $0.106043.
O orquestrador TDD rodou pela primeira vez com sucesso nesta manhã: 35/35 testes gerados e passando, código implementado, tudo em 71 segundos e custou em tokens o equivalente a $0.106043.
Primeiro protótipo funcional do pipeline multiagente baseado em TDD, usando a Claude Agent SDK. O objetivo é demonstrar, da forma mais simples possível, o conceito central do TCC: um orquestrador que coordena subagentes especializados no fluxo Requisito → Testes → Código.
Agent Skills é um padrão aberto de criação e gerenciamento de conhecimento e especializações para agentes de IA. Ele foi criado pela Anthropic e é mantido por ela e pela comunidade. O repositório oficial contém a documentação oficial de uso e alguns exemplos de Skills criadas pela Anthropic. As Skills têm como objetivo fornecer melhor contexto para os agentes de IA, permitindo que eles sejam mais eficientes e precisos em suas tarefas.
Durante meu estágio na empresa Opus Software, fui encarregado de realizar um estudo detalhado sobre o funcionamento de CUAs e seu caso de uso no cenário crescente do uso de IA generativa.
Pela definição da OpenAI, um Computer Using Agent (CUA) é um modelo que combina os recursos de visão de um LLM com raciocínio avançado por meio da aprendizagem por reforço (RL). Esses agentes são capazes de interagir com ambientes computacionais, como sistemas operacionais, navegadores da web e aplicativos, para realizar tarefas complexas que exigem múltiplas etapas.
A Anthropic define como um agente autônomo que pode seguir os comandos do usuário para mover o cursor pela tela do computador, clicar em locais relevantes e inserir informações por meio de um teclado virtual, emulando a forma como as pessoas interagem com seus próprios computadores.
Abaixo um esquema visual representando o fluxo de ações de um CUA:

O conceito de CUA surgiu meados do fim de 2024, quando a Anthropic anunciou o Computer Use junto de seus novos modelos Claude 3.5 Sonnet e Claude 3.5 Haiku. A Anthropic disponibilizou uma API dedicada para o Computer Use como tool para seus próprios modelos.
Eles surgiram como uma alternativa aos RPAs (Robotic Process Automations), que dependem de scripts rígidos e pré-definidos para automatizar tarefas.
Um RPA é uma tecnologia de software para automatizar tarefas digitais de forma rápida e confiável, porém muito rígida. A RPA ainda é uma tecnologia central para viabilizar a automação empresarial, trabalhando (ou não) ao lado de ferramentas de IA, incluindo IA generativa.
Fonte: Digital Bricks
A RPA Assistida é utilizada para auxiliar trabalhadores humanos com tarefas rotineiras. Esta forma de RPA depende de gatilhos ou entradas para iniciar tarefas automatizadas específicas. Os bots de RPA assistida necessitam operar com auxílio de intervenção humana. Eles são frequentemente empregados em cenários de front-office, como atendimento ao cliente, suporte técnico e processamento de transações.
Exemplos de ferramentas para RPA assistida incluem:
A RPA não assistida, como o nome sugere, opera sem intervenção humana. Essas automações funcionam de forma independente com base em gatilhos, entradas de dados e cronogramas pré-programados. A RPA não assistida pode ser acionada e operar em segundo plano, sendo mais frequentemente aplicada a processos de back-office, como entrada de dados, processos de TI e integrações de aplicativos.
Exemplos de ferramentas para RPA não assistida incluem:
Os CUAs diferem dos RPAs na forma como interagem com sistemas: enquanto RPAs seguem scripts pré-definidos baseados em regras rígidas, CUAs utilizam modelos de IA para interpretar interfaces visuais e tomar decisões dinâmicas:
Quando usar RPAs:
Quando usar CUAs:
Na pesquisa que desenvolvi dentro da empresa, cheguei a algumas conclusões importantes, baseadas em experiência própria de uso e em benchmarks consolidados em pesquisas públicas:
Existem benchmarks dedicados para avaliar CUAs em diferentes contextos. Os principais avaliados na pesquisa foram:
OS World — 369 tarefas abertas em sistemas
operacionais reais. O melhor modelo avaliado em 18/12/2025 foi o
claude-sonnet-4-5-20250929 com 62.9% de taxa de sucesso.
REAL — 112 tarefas práticas em réplicas determinísticas de 11 sites populares (e-commerce, viagens, etc.). Os melhores modelos atingem no máximo 41% de taxa de sucesso, evidenciando limitações críticas na navegação web autônoma.
Online Mind2Web — versão ao vivo do Mind2Web, que testa agentes contra interfaces web dinâmicas em tempo real. O melhor resultado registrado em 09/01/2026 foi do GPT-5 Medium com 42.33% de sucesso usando o framework SeeAct.
WebVoyager — navegação autônoma em 15 categorias de sites reais. O Magnitude liderou em 09/01/2026 com 93.9% de sucesso, seguido por frameworks como Browser Use e Convergence Proxy.
AndroidWorld — 116 tarefas em 20 aplicativos Android reais. O AGI-0 liderou em 10/2025 com 97.4% de sucesso; o agente M3A (linha de base original do benchmark) completou apenas 30.6% das tarefas.
Apesar dos avanços significativos, os CUAs ainda enfrentam várias limitações. Dentre as principais, podemos destacar:
Segundo análises de implementações nos benchmarks, as falhas dos CUAs geralmente se enquadram em alguns arquétipos comuns:
Os CUAs representam um avanço relevante na automação de tarefas digitais complexas, mas a tecnologia ainda está em estado claramente experimental. Mesmo tarefas simples podem falhar por imprecisão na visão computacional, loops de ação, guard rails excessivos ou simples desvios de raciocínio. Os benchmarks realizados mostram que até mesmo os melhores modelos de linguagem raramente ultrapassam 60–70% de taxa de sucesso em ambientes controlados, e o desempenho cai consideravelmente em cenários do mundo real.
Dessa forma, o escopo de uso de CUAs no contexto deste TCC deve ser limitado ao mínimo necessário: no máximo, servir como avaliador comportamental de caixa-preta para testes pontuais do resultado final do pipeline multiagente a ser construído, verificando se o software gerado se comporta corretamente do ponto de vista de um usuário real, sem assumir que o CUA executará essas verificações de forma confiável em todos os casos.
Início formal do TCC. O tema foi definido: avaliação de um pipeline multiagente baseado em TDD com validação comportamental via CUA.