Harness Engineering: How to Build Software When Humans Steer, Agents Execute — Ryan Lopopolo, OpenAI
Desenvolvedores aprendem a criar softwares com humanos no comando e agentes automatizados em ação.
Conteudo
TLDR;
Harness engineering é projetar e operar "harnesses" — processos, documentação, prompts e guardrails — que tornam sistemas e bases de código legíveis e acionáveis por agentes para que humanos os dirijam. Agentes avançados (ex.: GPT‑5.2) já podem executar a maior parte da implementação, mas engenheiros continuam essenciais para definir requisitos, estruturar sistemas, delegar e garantir qualidade. Os principais recursos escassos são o tempo humano, a atenção humana/modelo e a janela de contexto do modelo, exigindo padronização, otimização de prompts e previsibilidade de tokens.
Resumo
Ryan Leopo, membro do time técnico da OpenAI, apresenta a ideia de “harness engineering”: construir software com agentes executando e humanos orientando, privilegiando modelos capazes de fazer o trabalho completo de engenheiro de software. Após nove meses usando agentes — e ao afirmar-se “token billionaire” — ele descreve a mudança acelerada desde finais de 2025, quando modelos como o GPT‑5.2 passaram a produzir código de alta qualidade; consequência: código se torna abundante e barato, e o recurso escasso passa a ser tempo humano, atenção (humana e do modelo) e janela de contexto. As habilidades valorizadas mudam para pensamento sistêmico, design e delegação; o papel humano é desenhar estruturas, prompts e guardrails, documentar decisões (breadcrumbs, ADRs, logs) e tornar processos legíveis aos agentes. Padronizar e tornar previsível o consumo de tokens, internacionalizar ferramentas desde o início e tratar refatorações em grande escala como gratuitas são práticas recomendadas. Com agentes paralelos produtivos, tarefas negligenciadas viram executáveis; cabe aos engenheiros desbloquear, orquestrar e especificar requisitos não funcionais para que agentes entreguem software confiável e de longa duração. Ele enfatiza também métricas de confiabilidade, monitoramento contínuo, testes automatizados e ciclos rápidos de iteração para garantir segurança, qualidade e alinhamento com objetivos reais dos usuários.