Ao fim desta lição você vai entender por que Agente = Modelo + Harness, por que os modelos viram commodity, e por que o Alembic é um condutor — não mais um quarto orquestrador genérico. Nosso exemplo concreto, repetido em todo o curso: uma única unidade de trabalho atravessando o sistema, do pedido ao ship.
Esta lição destila a abertura do blind prompt do Alembic e a ancora em um único fato: o que distingue um sistema agentic confiável não é o tamanho do prompt, é o harness em volta do modelo. Tudo aqui é citado de material real — nada é inventado.
Suposições tolas (o que assumimos de você)
Você já conversou com um modelo de chat (ChatGPT, Claude, Gemini) ao menos uma vez.
Você sabe o que é um prompt — o texto que você manda para o modelo.
Você não precisa saber programar para entender esta lição. A camada Simples cobre tudo; a Técnica é opcional.
O que você vai conseguir fazer
Explicar a frase "if you're not the model, you're the harness" com suas próprias palavras.
Desenhar a equação Agente = Modelo + Harness e dizer o que cada parte faz.
Citar a evidência: o mesmo modelo subindo do rank 30 ao 5 só trocando o harness.
Distinguir as quatro camadas de engenharia (prompt, context, harness, loop) e onde o Alembic mora.
Reconhecer o Alembic como condutor que funde Mission + Workflow + Swarm sob gates.
1
A tese-âncora
O blind prompt do Alembic abre com uma frase que organiza tudo o que vem depois: if you're not the model, you're the harness — "se você não é o modelo, você é o harness". A ideia é simples e libertadora. Você quase nunca vai treinar um modelo de fronteira do zero; isso custa centenas de milhões. O que você de fato constrói é tudo o que fica em volta dele.
Esse "em volta" tem nome: harness — o arnês. É o loop que chama o modelo de novo e de novo, as ferramentas (tools) que ele pode acionar, o estado guardado em disco, os guardrails que impedem catástrofes, a verificação que prova que o trabalho ficou pronto. O modelo pensa; o harness transforma esse pensamento em trabalho confiável.
A consequência prática: vencer não é escrever o maior prompt. Líderes no TerminalBench (um placar público de agentes de código) não ganham com prompts gigantes — ganham com harnesses mais finos e melhor engenheirados. O Pi, por exemplo, lidera com apenas quatro tools e prompts de 200–1000 tokens. Menos prompt, melhor arnês.
Pense como… uma orquestra. O LLM é uma seção de instrumentos — poderosa, virtuosa, mas intercambiável: troque os violinos e a música continua. O harness é o maestro, a partitura e a cabine de gravação. Sem eles, instrumentos brilhantes produzem só barulho.
O harness é o loop que cerca o modelo — não um texto, mas um ciclo de código.O placar premia o arnês, não o tamanho do prompt. Fonte: corpus synthesis-harness-distribution · exemplo Pi.
Antes de continuar — arrisque um palpite
Se um time pega o mesmo modelo de outro time e só reescreve o harness, o que tende a acontecer com a posição no placar?
Ela pode saltar dramaticamente. Foi exatamente o que a LangChain demonstrou: o mesmo modelo subiu do rank 30 para o rank 5 apenas mudando o harness. O modelo é a constante; o arnês é a variável que você controla — e a que mais move o resultado.
Onde a tese aparece no corpus
A frase âncora vem de synthesis-harness-distribution/source.md, citada no PROMPT-CORPUS-EMBEDS.md do Alembic. Um dado correlato do mesmo corpus: estima-se que ~80% do valor de um agente de código vive em código determinístico (o harness), não na chamada não-determinística ao modelo. Dan (transcript yt-156): "Without the agent harness there are no agents" — sem o arnês, não há agentes, só um gerador de texto.
Por que prompts menores vencem
Um prompt gigante empurra trabalho para a janela de contexto (caro, ruidoso, difícil de versionar). Um harness fino move esse trabalho para código testável: o loop, as tools, o estado e a verificação ficam fora do prompt, em arquivos que você lê, testa e depura. Pi lidera o TerminalBench com 4 tools e 200–1000 tokens precisamente por isso.
Quatro tools bem escolhidas batem dezenas mal pensadas. (Os nomes são ilustrativos do princípio "poucas tools".)
2
Agente = Modelo + Harness
Esta é a equação que você leva desta lição inteira. Um agente não é um modelo de chat. É a soma de duas coisas:
Modelo (LLM) — a parte que raciocina e gera tokens. Bruta, poderosa, e cada vez mais intercambiável: GPT, Claude, Gemini, um modelo local. Harness — o loop, as tools, o estado, os guardrails, a verificação, as permissões e a orquestração que transformam inferência em trabalho confiável e repetível.
Junte os dois e você tem um agente: algo que recebe um objetivo, age, verifica, corrige e entrega — não só responde uma pergunta.
Pense como… um carro. O motor (modelo) gera potência. Mas potência solta não te leva a lugar nenhum: você precisa de transmissão, direção, freios e painel (harness). O carro — a coisa que de fato te transporta — é a soma. E você troca de motor sem trocar de carro.
A diferença prática entre um chat e um agente: responder uma pergunta versus entregar um objetivo cumprido.A equação central. O Alembic é a camada-produto que conduz Modelo + Harness sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto.
Retrieval
O que é o "harness" em uma frase?
clique para virar
Tudo em volta do modelo — loop, tools, estado, guardrails, verificação, orquestração — que transforma inferência em trabalho confiável.
Retrieval
Por que dizemos que o modelo "commoditiza"?
clique para virar
Porque é intercambiável: GPT, Claude, Gemini, local. O valor durável e defensável está no arnês, que você controla — não no modelo, que qualquer um aluga.
Retrieval
Agente = Modelo + ____ ?
clique para virar
Harness. Um modelo sozinho responde; um modelo + harness recebe um objetivo, age, verifica, corrige e entrega.
Retrieval
O Alembic copia as UIs de Droid / Claude / Kimi?
clique para virar
Não. Ele é um condutor que funde o DNA de Mission + Workflow + Swarm sob gates de Loop Engineering — não mais um quarto orquestrador genérico.
3
A evidência do ranking
Tese sem prova é opinião. A prova de que o harness — e não o modelo — é onde o jogo se decide veio de um experimento limpo da LangChain: pegaram um único modelo, mantiveram-no fixo, e só reescreveram o harness em volta. A posição no placar saltou do rank 30 para o rank 5.
Repare no que isso isola. O modelo é a constante do experimento — não mudou. A única variável foi o arnês. Logo, todo o ganho de 25 posições veio do harness. É a prova mais nítida da tese: o trabalho que você faz no arnês move o resultado mais do que qualquer troca de modelo.
O experimento da LangChain: modelo fixo, harness trocado, 25 posições de ganho. Fonte: corpus do Alembic, embed langchain-anatomy.
0
Rank com o harness A (prompt gigante)
0
Rank com o harness B (arnês fino)
0
Tools no Pi, líder do TerminalBench
0
% do valor estimado em código determinístico
Por isso o arnês é defensável: o trabalho ali se acumula. O modelo é alugado e nivela com o mercado.
Cuidado — armadilha de iniciante"Vou consertar isso melhorando o prompt." É o reflexo errado nove em cada dez vezes. Se o agente é frágil, falha em silêncio ou não verifica, o problema quase sempre está no harness (faltou um loop, uma tool, um gate, um estado) — não no texto do prompt. Olhe primeiro para o arnês.
4
Os 12 componentes do harness
"Harness" não é uma palavra mágica — é um conjunto concreto de peças. O corpus (embed langchain-anatomy) lista doze. Você não precisa decorá-las hoje; precisa reconhecer que o arnês é essa lista, e que cada peça é uma chance de tornar o agente mais confiável.
Os doze componentes que compõem o harness em volta do modelo. Cada um é um ponto de alavanca para confiabilidade.
O prompt é apenas uma das doze peças. O harness é a casca inteira em volta do modelo.
1 · Loop de orquestração — chama o modelo repetidamente até a tarefa fechar.
2 · Tools — ações que o modelo pode acionar (rodar comando, ler arquivo, buscar).
3 · Memória — o que persiste entre passos e entre execuções.
4 · Contexto — o combustível da janela: o que entra a cada chamada.
5 · Estado — o registro em disco do que já aconteceu.
6 · Tratamento de erros — o que fazer quando uma tool ou o modelo falha.
7 · Guardrails — limites que impedem ações perigosas ou caras.
8 · Verificação — a prova de que o trabalho ficou de fato pronto.
9 · Permissões — o que o agente pode e não pode fazer sozinho.
10 · Subagentes — delegar partes do trabalho a outros agentes.
11 · Observabilidade — enxergar o que está acontecendo (logs, spans, custo).
12 · Co-evolução — o sistema melhora a si mesmo ao longo do tempo.
Lembre — a única coisa para carregarO prompt é uma das doze peças, não as doze. Quando você ouvir "engenharia de agentes", pense nesta lista — não em um único campo de texto.
5
As quatro camadas de engenharia
Há quatro camadas empilhadas, da mais fina para a mais ampla. Confundi-las é a fonte de metade da confusão sobre agentes — então vamos separá-las com clareza:
Prompt engineering — o que pedir. Context engineering — com que combustível encher a janela. Harness engineering — como o sistema opera (o loop, as tools, os gates). Loop engineering — o control plane acima de tudo: como o trabalho é decidido, dividido e provado.
Cada camada engloba a anterior. O Alembic vive nas duas de cima: ele é um @alembic/harness conduzido por uma disciplina de loop (o que chamaremos de Prelúdio + Coda nas próximas lições).
Cada camada engloba a anterior. O Alembic é harness + loop. Fonte: PROMPT-BLIND-PLANNING.md.
Camada
O que é
Papel no Alembic
Prompt engineering
O que pedir ao modelo
Prompts de unit, o grill do forge
Context engineering
Combustível da janela
Compaction, injeção de embeds
Harness engineering
Como o sistema opera
@alembic/harness
Loop engineering
Control plane meta
Prelúdio + Coda, os gates
Papo técnico — pode pular numa primeira leitura
No monorepo, "harness engineering" é literalmente o pacote @alembic/harness (o HarnessCore, o event bus, as swimlanes). "Loop engineering" é o control plane que o envolve: os gates de Scope, Proof, Course e Publish, e a regra Validador ≠ construtor.
6
Alembic, o condutor
Agora a parte que dá nome ao produto. No stack da Appfy, o Alembic é o nome da camada de harness — o repo appfy/alembic, os pacotes @alembic/*, o estado em ~/.alembic/runs/<id>/. Mas o ponto importante é o que ele escolhe ser.
Existem ótimas interfaces de agente por aí — o Droid, o Claude Code, o Kimi, cada um com suas telas de /missions, /workflows, /swarm. A tentação fácil seria copiar uma quarta UI parecida. O Alembic recusa esse caminho. Em vez de ser mais um orquestrador genérico, ele é o condutor: pega o DNA de três ideias — Mission (a missão), Workflow (o fluxo) e Swarm (o enxame de agentes) — e funde tudo sob a batuta dos gates de Loop Engineering.
Pense como… a diferença entre comprar mais um instrumento e contratar o maestro. Qualquer um pode ter violinos (uma UI de agente). Poucos têm quem rege a orquestra inteira, garante que cada seção entra na hora e para tudo se a peça vai descarrilhar. O Alembic segura a batuta.
O condutor não é uma quarta UI: funde Mission + Workflow + Swarm sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto: Alembic.
A diferença em uma linha
Uma UI de agente te dá botões. Um condutor te dá garantias: o trabalho é roteado, verificado num proof gate e barrado se um Council diz NO_GO — antes de qualquer ação cara acontecer.
7
No código
Tudo isso não é metáfora — é código que você pode abrir. Aqui está o esqueleto do condutor e da disciplina de loop, em forma de pseudocódigo legível.
LEARN → ANALYZE → EXECUTE ONE → VERIFY → DECIDE
Gates: Scope | Proof | Course | Publish
Validador ≠ construtor// quem prova não é quem fez
O control plane do Loop Engineering: aprender, analisar, executar UMA unidade, verificar, decidir — e repetir.Nosso exemplo do curso: uma unidade do pedido ao ship. Um NO_GO do Council aborta antes de qualquer ação cara — fail-closed.
Acompanhe — uma unidade de trabalho atravessando o sistema
1
Pedido entra. O condutor recebe o objetivo e o quebra em unidades de trabalho.
2
Roteamento por tier. Cada unidade vai para o modelo mais barato da sua faixa de risco — o harness escolhe, não o prompt.
3
Gates. Antes de agir, um Council pode dar GO/NO_GO; um NO_GO aborta o fanout (fail-closed).
4
Proof gate. A unidade só conta como pronta quando uma verificação independente passa — não quando o modelo diz "feito".
5
Agora você: sem olhar acima, diga em qual passo o "harness" (e não o modelo) está claramente no comando. (Resposta: nos passos 2, 3 e 4 — roteamento, gate e prova são todos arnês.)
Dica
Sempre que você ler fail-closed neste curso, traduza por: "na dúvida, pare, não prossiga". É o oposto de fail-open (seguir mesmo sem certeza). Um bom harness falha fechado.
8
Experimente: as três camadas
Clique em cada camada abaixo. O painel mostra o que ela commoditiza ou compõe, e o diagrama acende a parte correspondente da pilha. Use isto para fixar a diferença entre Model, Harness e Alembic.
Model
Carregando…
A metáfora central: o modelo é a seção de instrumentos; o harness é a partitura e a regência; o Alembic é o maestro.
9
Recapitulando em slides
Passe pelos slides para revisar os pontos-chave. Use as setas do teclado ou os botões.
Tese
Se você não é o modelo, você é o harness
Você quase nunca treina um modelo de fronteira. O que você constrói é tudo em volta dele.
1
Equação
Agente = Modelo + Harness
O modelo raciocina; o harness — loop, tools, estado, gates, verificação — torna o trabalho confiável.
2
Evidência
Rank 30 → 5, mesmo modelo
A LangChain trocou só o harness e ganhou 25 posições. O Pi lidera com 4 tools. O arnês é a variável.
3
Camadas
Quatro camadas, o Alembic nas duas de cima
Prompt → Context → Harness → Loop. O Alembic é harness conduzido por disciplina de loop.
4
Produto
Alembic é condutor, não a quarta UI
Funde Mission + Workflow + Swarm sob gates de Loop Engineering. Garantias, não só botões.
5
Slide 1 / 5←→ navegam
Recuperação ativa: feche os olhos e tente recitar a equação central e a peça de evidência. Conseguiu? Esse esforço é o que fixa na memória de longo prazo.
10
Verifique seu entendimento
Revisão da Lição 1
Três perguntas. Responda de memória — o placar acompanha seus acertos.
1 · O que a frase "if you're not the model, you're the harness" quer dizer?
Correto: B. Você quase nunca treina o modelo; constrói o que o cerca — loop, tools, estado, verificação. A erra: o curso mostra o oposto — prompts menores (200–1000 tokens no Pi) vencem com arnês melhor. C erra: a tese não é sobre local vs. fronteira; é sobre onde está o valor (no arnês), seja qual for o modelo.
2 · Por que o experimento da LangChain (rank 30 → 5) prova a tese tão bem?
Correto: C. Com o modelo como constante, todo o ganho de 25 posições só pode vir da única variável: o harness. A erra: o modelo não mudou — esse é justamente o ponto que isola a causa. B erra: o curso associa vitória a prompts menores e arnês fino, não a prompts maiores.
3 · Qual frase descreve melhor o que o Alembic escolhe ser?
Correto: A. O Alembic é o condutor — funde o DNA de Mission + Workflow + Swarm sob os gates de Loop Engineering. B erra: ele recusa ser mais um orquestrador genérico; essa é a decisão central do produto. C erra: o Alembic é a camada de harness; o modelo permanece intercambiável e empurrado para baixo da cintura.
Acertos: 0/3
As Três para levar (versão curta)
Agente = Modelo + Harness. Decore a equação; ela organiza o curso inteiro.
O arnês é a variável que você controla — e a que mais move o resultado (rank 30 → 5).
O Alembic é condutor, não UI. Ele dá garantias (roteamento, proof gate, fail-closed), não só botões.