Passo 1 · Blind Planning · O harness é o produto
Curso Blind Planning · Visual Course

O harness é o produto

Ao fim desta lição você vai entender por que Agente = Modelo + Harness, por que os modelos viram commodity, e por que o Alembic é um condutor — não mais um quarto orquestrador genérico. Nosso exemplo concreto, repetido em todo o curso: uma única unidade de trabalho atravessando o sistema, do pedido ao ship.

Leia primeiro (fonte primária)
PROMPT-BLIND-PLANNING.md — § "O produto: Alembic" + a tese-âncora do corpus synthesis-harness-distribution

Esta lição destila a abertura do blind prompt do Alembic e a ancora em um único fato: o que distingue um sistema agentic confiável não é o tamanho do prompt, é o harness em volta do modelo. Tudo aqui é citado de material real — nada é inventado.

Suposições tolas (o que assumimos de você)
  • Você já conversou com um modelo de chat (ChatGPT, Claude, Gemini) ao menos uma vez.
  • Você sabe o que é um prompt — o texto que você manda para o modelo.
  • Você não precisa saber programar para entender esta lição. A camada Simples cobre tudo; a Técnica é opcional.
O que você vai conseguir fazer
  • Explicar a frase "if you're not the model, you're the harness" com suas próprias palavras.
  • Desenhar a equação Agente = Modelo + Harness e dizer o que cada parte faz.
  • Citar a evidência: o mesmo modelo subindo do rank 30 ao 5 só trocando o harness.
  • Distinguir as quatro camadas de engenharia (prompt, context, harness, loop) e onde o Alembic mora.
  • Reconhecer o Alembic como condutor que funde Mission + Workflow + Swarm sob gates.
1

A tese-âncora


O blind prompt do Alembic abre com uma frase que organiza tudo o que vem depois: if you're not the model, you're the harness — "se você não é o modelo, você é o harness". A ideia é simples e libertadora. Você quase nunca vai treinar um modelo de fronteira do zero; isso custa centenas de milhões. O que você de fato constrói é tudo o que fica em volta dele.

Esse "em volta" tem nome: harness — o arnês. É o loop que chama o modelo de novo e de novo, as ferramentas (tools) que ele pode acionar, o estado guardado em disco, os guardrails que impedem catástrofes, a verificação que prova que o trabalho ficou pronto. O modelo pensa; o harness transforma esse pensamento em trabalho confiável.

A consequência prática: vencer não é escrever o maior prompt. Líderes no TerminalBench (um placar público de agentes de código) não ganham com prompts gigantes — ganham com harnesses mais finos e melhor engenheirados. O Pi, por exemplo, lidera com apenas quatro tools e prompts de 200–1000 tokens. Menos prompt, melhor arnês.

Pense como… uma orquestra. O LLM é uma seção de instrumentos — poderosa, virtuosa, mas intercambiável: troque os violinos e a música continua. O harness é o maestro, a partitura e a cabine de gravação. Sem eles, instrumentos brilhantes produzem só barulho.

O harness é um ciclo em volta do modelo Modelo pensa 1 · chama o modelo 2 · aciona uma tool 3 · verifica 4 · atualiza o estado …e repete até a tarefa fechar (fail-closed se algo der errado)
O harness é o loop que cerca o modelo — não um texto, mas um ciclo de código.
Prompt gigante versus harness fino ABORDAGEM A · prompt gigante milhares de tokens de instruções "faça X, não faça Y, lembre de Z…" poucas tools, sem estado resultado: rank 30 frágil, difícil de depurar ABORDAGEM B · harness fino prompt de 200–1000 tokens 4 tools · loop · estado em disco verificação + guardrails resultado: rank 5 mesmo modelo, arnês melhor
O placar premia o arnês, não o tamanho do prompt. Fonte: corpus synthesis-harness-distribution · exemplo Pi.
Antes de continuar — arrisque um palpite

Se um time pega o mesmo modelo de outro time e só reescreve o harness, o que tende a acontecer com a posição no placar?

Ela pode saltar dramaticamente. Foi exatamente o que a LangChain demonstrou: o mesmo modelo subiu do rank 30 para o rank 5 apenas mudando o harness. O modelo é a constante; o arnês é a variável que você controla — e a que mais move o resultado.

Onde a tese aparece no corpus

A frase âncora vem de synthesis-harness-distribution/source.md, citada no PROMPT-CORPUS-EMBEDS.md do Alembic. Um dado correlato do mesmo corpus: estima-se que ~80% do valor de um agente de código vive em código determinístico (o harness), não na chamada não-determinística ao modelo. Dan (transcript yt-156): "Without the agent harness there are no agents" — sem o arnês, não há agentes, só um gerador de texto.

Por que prompts menores vencem

Um prompt gigante empurra trabalho para a janela de contexto (caro, ruidoso, difícil de versionar). Um harness fino move esse trabalho para código testável: o loop, as tools, o estado e a verificação ficam fora do prompt, em arquivos que você lê, testa e depura. Pi lidera o TerminalBench com 4 tools e 200–1000 tokens precisamente por isso.

Pi: líder do TerminalBench com 4 tools Pi · líder do TerminalBench um arnês mínimo: 4 tools + prompt de 200–1000 tokens tool 1 · ler tool 2 · escrever tool 3 · executar tool 4 · buscar
Quatro tools bem escolhidas batem dezenas mal pensadas. (Os nomes são ilustrativos do princípio "poucas tools".)
2

Agente = Modelo + Harness


Esta é a equação que você leva desta lição inteira. Um agente não é um modelo de chat. É a soma de duas coisas:

Modelo (LLM) — a parte que raciocina e gera tokens. Bruta, poderosa, e cada vez mais intercambiável: GPT, Claude, Gemini, um modelo local. Harness — o loop, as tools, o estado, os guardrails, a verificação, as permissões e a orquestração que transformam inferência em trabalho confiável e repetível.

Junte os dois e você tem um agente: algo que recebe um objetivo, age, verifica, corrige e entrega — não só responde uma pergunta.

Pense como… um carro. O motor (modelo) gera potência. Mas potência solta não te leva a lugar nenhum: você precisa de transmissão, direção, freios e painel (harness). O carro — a coisa que de fato te transporta — é a soma. E você troca de motor sem trocar de carro.

Responder versus entregar Só o Modelo você pergunta → ele responde uma volta · sem agir · sem verificar Modelo + Harness você dá um objetivo → ele entrega age · verifica · corrige · prova e repete o loop até fechar vs
A diferença prática entre um chat e um agente: responder uma pergunta versus entregar um objetivo cumprido.
Agente = Modelo + Harness, com o condutor Alembic embaixo Modelo (LLM) raciocínio · tokens + Harness loop · tools · estado · gates = Agente trabalho confiável Alembic · o condutor Mission · Workflow · Swarm + Loop Engineering
A equação central. O Alembic é a camada-produto que conduz Modelo + Harness sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto.
Retrieval
O que é o "harness" em uma frase?
clique para virar
Tudo em volta do modelo — loop, tools, estado, guardrails, verificação, orquestração — que transforma inferência em trabalho confiável.
Retrieval
Por que dizemos que o modelo "commoditiza"?
clique para virar
Porque é intercambiável: GPT, Claude, Gemini, local. O valor durável e defensável está no arnês, que você controla — não no modelo, que qualquer um aluga.
Retrieval
Agente = Modelo + ____ ?
clique para virar
Harness. Um modelo sozinho responde; um modelo + harness recebe um objetivo, age, verifica, corrige e entrega.
Retrieval
O Alembic copia as UIs de Droid / Claude / Kimi?
clique para virar
Não. Ele é um condutor que funde o DNA de Mission + Workflow + Swarm sob gates de Loop Engineering — não mais um quarto orquestrador genérico.
3

A evidência do ranking


Tese sem prova é opinião. A prova de que o harness — e não o modelo — é onde o jogo se decide veio de um experimento limpo da LangChain: pegaram um único modelo, mantiveram-no fixo, e só reescreveram o harness em volta. A posição no placar saltou do rank 30 para o rank 5.

Repare no que isso isola. O modelo é a constante do experimento — não mudou. A única variável foi o arnês. Logo, todo o ganho de 25 posições veio do harness. É a prova mais nítida da tese: o trabalho que você faz no arnês move o resultado mais do que qualquer troca de modelo.

Salto de rank 30 para rank 5 com o mesmo modelo rank 1 rank 35 posição no placar 30 Harness A prompt gigante 5 Harness B arnês fino, mesmo modelo +25 posições só o harness mudou
O experimento da LangChain: modelo fixo, harness trocado, 25 posições de ganho. Fonte: corpus do Alembic, embed langchain-anatomy.
0
Rank com o harness A (prompt gigante)
0
Rank com o harness B (arnês fino)
0
Tools no Pi, líder do TerminalBench
0
% do valor estimado em código determinístico
Valor ao longo do tempo: modelo plano, harness crescente valor / vantagem tempo → Modelo commoditiza Harness compõe valor o que você constrói no arnês acumula; o modelo que você aluga, não
Por isso o arnês é defensável: o trabalho ali se acumula. O modelo é alugado e nivela com o mercado.
Cuidado — armadilha de iniciante "Vou consertar isso melhorando o prompt." É o reflexo errado nove em cada dez vezes. Se o agente é frágil, falha em silêncio ou não verifica, o problema quase sempre está no harness (faltou um loop, uma tool, um gate, um estado) — não no texto do prompt. Olhe primeiro para o arnês.
4

Os 12 componentes do harness


"Harness" não é uma palavra mágica — é um conjunto concreto de peças. O corpus (embed langchain-anatomy) lista doze. Você não precisa decorá-las hoje; precisa reconhecer que o arnês é essa lista, e que cada peça é uma chance de tornar o agente mais confiável.

Infográfico em estilo vetorial editorial mostrando os 12 componentes do harness dispostos como peças ao redor de um modelo central: Loop de orquestração, Tools, Memória, Contexto, Estado, Tratamento de erros, Guardrails, Verificação, Permissões, Subagentes, Observabilidade e Co-evolução, em paleta warm-neutral (ivory, clay, olive, slate).

Os doze componentes que compõem o harness em volta do modelo. Cada um é um ponto de alavanca para confiabilidade.

O harness envolve o modelo; o prompt é apenas a entrada HARNESS (as 12 peças) Modelo só pensa Prompt 1 de 12 trabalho verificado · confiável o prompt entra; o harness é tudo o que faz a saída ser confiável
O prompt é apenas uma das doze peças. O harness é a casca inteira em volta do modelo.
1 · Loop de orquestração — chama o modelo repetidamente até a tarefa fechar.
2 · Tools — ações que o modelo pode acionar (rodar comando, ler arquivo, buscar).
3 · Memória — o que persiste entre passos e entre execuções.
4 · Contexto — o combustível da janela: o que entra a cada chamada.
5 · Estado — o registro em disco do que já aconteceu.
6 · Tratamento de erros — o que fazer quando uma tool ou o modelo falha.
7 · Guardrails — limites que impedem ações perigosas ou caras.
8 · Verificação — a prova de que o trabalho ficou de fato pronto.
9 · Permissões — o que o agente pode e não pode fazer sozinho.
10 · Subagentes — delegar partes do trabalho a outros agentes.
11 · Observabilidade — enxergar o que está acontecendo (logs, spans, custo).
12 · Co-evolução — o sistema melhora a si mesmo ao longo do tempo.
Lembre — a única coisa para carregar O prompt é uma das doze peças, não as doze. Quando você ouvir "engenharia de agentes", pense nesta lista — não em um único campo de texto.
5

As quatro camadas de engenharia


Há quatro camadas empilhadas, da mais fina para a mais ampla. Confundi-las é a fonte de metade da confusão sobre agentes — então vamos separá-las com clareza:

Prompt engineeringo que pedir. Context engineeringcom que combustível encher a janela. Harness engineeringcomo o sistema opera (o loop, as tools, os gates). Loop engineering — o control plane acima de tudo: como o trabalho é decidido, dividido e provado.

Cada camada engloba a anterior. O Alembic vive nas duas de cima: ele é um @alembic/harness conduzido por uma disciplina de loop (o que chamaremos de Prelúdio + Coda nas próximas lições).

As quatro camadas, da mais fina (topo) à mais ampla (base) Loop engineering como o trabalho é decidido + provado Harness engineering como o sistema opera Context engineering combustível da janela Prompt engineering o que pedir ↑ o Alembic mora nas duas camadas de cima ↑
Cada camada engloba a anterior. O Alembic é harness + loop. Fonte: PROMPT-BLIND-PLANNING.md.
CamadaO que éPapel no Alembic
Prompt engineeringO que pedir ao modeloPrompts de unit, o grill do forge
Context engineeringCombustível da janelaCompaction, injeção de embeds
Harness engineeringComo o sistema opera@alembic/harness
Loop engineeringControl plane metaPrelúdio + Coda, os gates
Papo técnico — pode pular numa primeira leitura No monorepo, "harness engineering" é literalmente o pacote @alembic/harness (o HarnessCore, o event bus, as swimlanes). "Loop engineering" é o control plane que o envolve: os gates de Scope, Proof, Course e Publish, e a regra Validador ≠ construtor.
6

Alembic, o condutor


Agora a parte que dá nome ao produto. No stack da Appfy, o Alembic é o nome da camada de harness — o repo appfy/alembic, os pacotes @alembic/*, o estado em ~/.alembic/runs/<id>/. Mas o ponto importante é o que ele escolhe ser.

Existem ótimas interfaces de agente por aí — o Droid, o Claude Code, o Kimi, cada um com suas telas de /missions, /workflows, /swarm. A tentação fácil seria copiar uma quarta UI parecida. O Alembic recusa esse caminho. Em vez de ser mais um orquestrador genérico, ele é o condutor: pega o DNA de três ideias — Mission (a missão), Workflow (o fluxo) e Swarm (o enxame de agentes) — e funde tudo sob a batuta dos gates de Loop Engineering.

Pense como… a diferença entre comprar mais um instrumento e contratar o maestro. Qualquer um pode ter violinos (uma UI de agente). Poucos têm quem rege a orquestra inteira, garante que cada seção entra na hora e para tudo se a peça vai descarrilhar. O Alembic segura a batuta.

O condutor funde Mission, Workflow e Swarm sob os gates de Loop Engineering Mission a missão + os critérios Workflow o fluxo de etapas Swarm o enxame de agentes Alembic · o condutor funde os três sob uma batuta única Gates de Loop Engineering: Scope · Proof · Course · Publish
O condutor não é uma quarta UI: funde Mission + Workflow + Swarm sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto: Alembic.
A diferença em uma linha
Uma UI de agente te dá botões. Um condutor te dá garantias: o trabalho é roteado, verificado num proof gate e barrado se um Council diz NO_GO — antes de qualquer ação cara acontecer.
7

No código


Tudo isso não é metáfora — é código que você pode abrir. Aqui está o esqueleto do condutor e da disciplina de loop, em forma de pseudocódigo legível.

@alembic/harness — o Conductor
HarnessCore.start  fanout  poll  report
EventBus + swimlanes (um span por unidade)
Council NO_GO → abort fanout   // fail-closed
loop-engineering/SKILL.md — o control plane
LEARN → ANALYZE → EXECUTE ONE → VERIFY → DECIDE
Gates: Scope | Proof | Course | Publish
Validador ≠ construtor   // quem prova não é quem fez
O loop LEARN → ANALYZE → EXECUTE ONE → VERIFY → DECIDE LEARN ANALYZE EXECUTE ONE VERIFY DECIDE não convergiu? volta ao LEARN — uma unidade por vez
O control plane do Loop Engineering: aprender, analisar, executar UMA unidade, verificar, decidir — e repetir.
Pipeline da unidade de trabalho: pedido, roteamento, gate, proof, ship ou park pedido → unidades roteia por tier modelo + barato Council GO? proof gate verifica ship ✓ park / aborta NO_GO → fail-closed (não prossegue) GO + prova passa
Nosso exemplo do curso: uma unidade do pedido ao ship. Um NO_GO do Council aborta antes de qualquer ação cara — fail-closed.
Acompanhe — uma unidade de trabalho atravessando o sistema
1
Pedido entra. O condutor recebe o objetivo e o quebra em unidades de trabalho.
2
Roteamento por tier. Cada unidade vai para o modelo mais barato da sua faixa de risco — o harness escolhe, não o prompt.
3
Gates. Antes de agir, um Council pode dar GO/NO_GO; um NO_GO aborta o fanout (fail-closed).
4
Proof gate. A unidade só conta como pronta quando uma verificação independente passa — não quando o modelo diz "feito".
5
Agora você: sem olhar acima, diga em qual passo o "harness" (e não o modelo) está claramente no comando. (Resposta: nos passos 2, 3 e 4 — roteamento, gate e prova são todos arnês.)
Dica Sempre que você ler fail-closed neste curso, traduza por: "na dúvida, pare, não prossiga". É o oposto de fail-open (seguir mesmo sem certeza). Um bom harness falha fechado.
8

Experimente: as três camadas


Clique em cada camada abaixo. O painel mostra o que ela commoditiza ou compõe, e o diagrama acende a parte correspondente da pilha. Use isto para fixar a diferença entre Model, Harness e Alembic.

Model

Carregando…

Pilha Model · Harness · Alembic Model (LLM) Harness Alembic

Ilustração editorial de uma orquestra vista de cima como metáfora do harness: a seção de instrumentos rotulada Model (intercambiável), a partitura e a cabine de gravação rotuladas Harness, e o maestro central rotulado Alembic conductor com a batuta erguida, paleta warm-neutral.

A metáfora central: o modelo é a seção de instrumentos; o harness é a partitura e a regência; o Alembic é o maestro.

9

Recapitulando em slides


Passe pelos slides para revisar os pontos-chave. Use as setas do teclado ou os botões.

Tese

Se você não é o modelo, você é o harness

Você quase nunca treina um modelo de fronteira. O que você constrói é tudo em volta dele.

1

Equação

Agente = Modelo + Harness

O modelo raciocina; o harness — loop, tools, estado, gates, verificação — torna o trabalho confiável.

Modelo + Harness = Agente Modelo + Harness = Agente
2

Evidência

Rank 30 → 5, mesmo modelo

A LangChain trocou só o harness e ganhou 25 posições. O Pi lidera com 4 tools. O arnês é a variável.

Rank 30 → 5 rank 30 +25 rank 5
3

Camadas

Quatro camadas, o Alembic nas duas de cima

Prompt → Context → HarnessLoop. O Alembic é harness conduzido por disciplina de loop.

Prompt · Context · Harness · Loop Prompt Context Harness Loop
4

Produto

Alembic é condutor, não a quarta UI

Funde Mission + Workflow + Swarm sob gates de Loop Engineering. Garantias, não só botões.

5
Slide 1 / 5 navegam
Recuperação ativa: feche os olhos e tente recitar a equação central e a peça de evidência. Conseguiu? Esse esforço é o que fixa na memória de longo prazo.
10

Verifique seu entendimento


Revisão da Lição 1

Três perguntas. Responda de memória — o placar acompanha seus acertos.

1 · O que a frase "if you're not the model, you're the harness" quer dizer?
Correto: B. Você quase nunca treina o modelo; constrói o que o cerca — loop, tools, estado, verificação.
A erra: o curso mostra o oposto — prompts menores (200–1000 tokens no Pi) vencem com arnês melhor.
C erra: a tese não é sobre local vs. fronteira; é sobre onde está o valor (no arnês), seja qual for o modelo.
2 · Por que o experimento da LangChain (rank 30 → 5) prova a tese tão bem?
Correto: C. Com o modelo como constante, todo o ganho de 25 posições só pode vir da única variável: o harness.
A erra: o modelo não mudou — esse é justamente o ponto que isola a causa.
B erra: o curso associa vitória a prompts menores e arnês fino, não a prompts maiores.
3 · Qual frase descreve melhor o que o Alembic escolhe ser?
Correto: A. O Alembic é o condutor — funde o DNA de Mission + Workflow + Swarm sob os gates de Loop Engineering.
B erra: ele recusa ser mais um orquestrador genérico; essa é a decisão central do produto.
C erra: o Alembic é a camada de harness; o modelo permanece intercambiável e empurrado para baixo da cintura.
Acertos: 0/3
As Três para levar (versão curta)
  1. Agente = Modelo + Harness. Decore a equação; ela organiza o curso inteiro.
  2. O arnês é a variável que você controla — e a que mais move o resultado (rank 30 → 5).
  3. O Alembic é condutor, não UI. Ele dá garantias (roteamento, proof gate, fail-closed), não só botões.
Leia/assista a seguir
PROMPT-BLIND-PLANNING.md (abertura) · corpus synthesis-harness-distribution · embed langchain-anatomy

Dúvida sobre qualquer ponto? Pergunte ao seu agente-tutor — ele tem o contexto desta lição e pode aprofundar qualquer parte.

A seguir, Lição 2 · Disciplina de evidência: como um agente que planeja "às cegas" deve provar cada afirmação em vez de confiar na própria narrativa.