Curso Blind Planning · Visual Course

O harness é o produto

Ao fim desta lição você vai entender por que Agente = Modelo + Harness, por que os modelos viram commodity, e por que o Alembic é um condutor — não mais um quarto orquestrador genérico. Nosso exemplo concreto, repetido em todo o curso: uma única unidade de trabalho atravessando o sistema, do pedido ao ship.

Leia primeiro (fonte primária)

PROMPT-BLIND-PLANNING.md — § "O produto: Alembic" + a tese-âncora do corpus synthesis-harness-distribution

Esta lição destila a abertura do blind prompt do Alembic e a ancora em um único fato: o que distingue um sistema agentic confiável não é o tamanho do prompt, é o harness em volta do modelo. Tudo aqui é citado de material real — nada é inventado.

Suposições tolas (o que assumimos de você)

Você já conversou com um modelo de chat (ChatGPT, Claude, Gemini) ao menos uma vez.
Você sabe o que é um prompt — o texto que você manda para o modelo.
Você não precisa saber programar para entender esta lição. A camada Simples cobre tudo; a Técnica é opcional.

O que você vai conseguir fazer

Explicar a frase "if you're not the model, you're the harness" com suas próprias palavras.
Desenhar a equação Agente = Modelo + Harness e dizer o que cada parte faz.
Citar a evidência: o mesmo modelo subindo do rank 30 ao 5 só trocando o harness.
Distinguir as quatro camadas de engenharia (prompt, context, harness, loop) e onde o Alembic mora.
Reconhecer o Alembic como condutor que funde Mission + Workflow + Swarm sob gates.

A tese-âncora

O blind prompt do Alembic abre com uma frase que organiza tudo o que vem depois: if you're not the model, you're the harness — "se você não é o modelo, você é o harness". A ideia é simples e libertadora. Você quase nunca vai treinar um modelo de fronteira do zero; isso custa centenas de milhões. O que você de fato constrói é tudo o que fica em volta dele.

Esse "em volta" tem nome: harness — o arnês. É o loop que chama o modelo de novo e de novo, as ferramentas (tools) que ele pode acionar, o estado guardado em disco, os guardrails que impedem catástrofes, a verificação que prova que o trabalho ficou pronto. O modelo pensa; o harness transforma esse pensamento em trabalho confiável.

A consequência prática: vencer não é escrever o maior prompt. Líderes no TerminalBench (um placar público de agentes de código) não ganham com prompts gigantes — ganham com harnesses mais finos e melhor engenheirados. O Pi, por exemplo, lidera com apenas quatro tools e prompts de 200–1000 tokens. Menos prompt, melhor arnês.

Pense como… uma orquestra. O LLM é uma seção de instrumentos — poderosa, virtuosa, mas intercambiável: troque os violinos e a música continua. O harness é o maestro, a partitura e a cabine de gravação. Sem eles, instrumentos brilhantes produzem só barulho.

O harness é o loop que cerca o modelo — não um texto, mas um ciclo de código.

O placar premia o arnês, não o tamanho do prompt. Fonte: corpus synthesis-harness-distribution · exemplo Pi.

Antes de continuar — arrisque um palpite

Se um time pega o mesmo modelo de outro time e só reescreve o harness, o que tende a acontecer com a posição no placar?

Ela pode saltar dramaticamente. Foi exatamente o que a LangChain demonstrou: o mesmo modelo subiu do rank 30 para o rank 5 apenas mudando o harness. O modelo é a constante; o arnês é a variável que você controla — e a que mais move o resultado.

Onde a tese aparece no corpus

A frase âncora vem de synthesis-harness-distribution/source.md, citada no PROMPT-CORPUS-EMBEDS.md do Alembic. Um dado correlato do mesmo corpus: estima-se que ~80% do valor de um agente de código vive em código determinístico (o harness), não na chamada não-determinística ao modelo. Dan (transcript yt-156): "Without the agent harness there are no agents" — sem o arnês, não há agentes, só um gerador de texto.

Por que prompts menores vencem

Um prompt gigante empurra trabalho para a janela de contexto (caro, ruidoso, difícil de versionar). Um harness fino move esse trabalho para código testável: o loop, as tools, o estado e a verificação ficam fora do prompt, em arquivos que você lê, testa e depura. Pi lidera o TerminalBench com 4 tools e 200–1000 tokens precisamente por isso.

Quatro tools bem escolhidas batem dezenas mal pensadas. (Os nomes são ilustrativos do princípio "poucas tools".)

Agente = Modelo + Harness

Esta é a equação que você leva desta lição inteira. Um agente não é um modelo de chat. É a soma de duas coisas:

Modelo (LLM) — a parte que raciocina e gera tokens. Bruta, poderosa, e cada vez mais intercambiável: GPT, Claude, Gemini, um modelo local. Harness — o loop, as tools, o estado, os guardrails, a verificação, as permissões e a orquestração que transformam inferência em trabalho confiável e repetível.

Junte os dois e você tem um agente: algo que recebe um objetivo, age, verifica, corrige e entrega — não só responde uma pergunta.

Pense como… um carro. O motor (modelo) gera potência. Mas potência solta não te leva a lugar nenhum: você precisa de transmissão, direção, freios e painel (harness). O carro — a coisa que de fato te transporta — é a soma. E você troca de motor sem trocar de carro.

responde uma volta · sem agir · sem verificar Modelo + Harness você dá um objetivo → ele entrega age · verifica · corrige · prova e repete o loop até fechar vs

A diferença prática entre um chat e um agente: responder uma pergunta versus entregar um objetivo cumprido.

A equação central. O Alembic é a camada-produto que conduz Modelo + Harness sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto.

Retrieval

O que é o "harness" em uma frase?

clique para virar

Tudo em volta do modelo — loop, tools, estado, guardrails, verificação, orquestração — que transforma inferência em trabalho confiável.

Retrieval

Por que dizemos que o modelo "commoditiza"?

clique para virar

Porque é intercambiável: GPT, Claude, Gemini, local. O valor durável e defensável está no arnês, que você controla — não no modelo, que qualquer um aluga.

Retrieval

Agente = Modelo + ____ ?

clique para virar

Harness. Um modelo sozinho responde; um modelo + harness recebe um objetivo, age, verifica, corrige e entrega.

Retrieval

O Alembic copia as UIs de Droid / Claude / Kimi?

clique para virar

Não. Ele é um condutor que funde o DNA de Mission + Workflow + Swarm sob gates de Loop Engineering — não mais um quarto orquestrador genérico.

A evidência do ranking

Tese sem prova é opinião. A prova de que o harness — e não o modelo — é onde o jogo se decide veio de um experimento limpo da LangChain: pegaram um único modelo, mantiveram-no fixo, e só reescreveram o harness em volta. A posição no placar saltou do rank 30 para o rank 5.

Repare no que isso isola. O modelo é a constante do experimento — não mudou. A única variável foi o arnês. Logo, todo o ganho de 25 posições veio do harness. É a prova mais nítida da tese: o trabalho que você faz no arnês move o resultado mais do que qualquer troca de modelo.

O experimento da LangChain: modelo fixo, harness trocado, 25 posições de ganho. Fonte: corpus do Alembic, embed langchain-anatomy.

Rank com o harness A (prompt gigante)

Rank com o harness B (arnês fino)

Tools no Pi, líder do TerminalBench

% do valor estimado em código determinístico

Por isso o arnês é defensável: o trabalho ali se acumula. O modelo é alugado e nivela com o mercado.

Cuidado — armadilha de iniciante "Vou consertar isso melhorando o prompt." É o reflexo errado nove em cada dez vezes. Se o agente é frágil, falha em silêncio ou não verifica, o problema quase sempre está no harness (faltou um loop, uma tool, um gate, um estado) — não no texto do prompt. Olhe primeiro para o arnês.

Os 12 componentes do harness

"Harness" não é uma palavra mágica — é um conjunto concreto de peças. O corpus (embed langchain-anatomy) lista doze. Você não precisa decorá-las hoje; precisa reconhecer que o arnês é essa lista, e que cada peça é uma chance de tornar o agente mais confiável.

Os doze componentes que compõem o harness em volta do modelo. Cada um é um ponto de alavanca para confiabilidade.

O prompt é apenas uma das doze peças. O harness é a casca inteira em volta do modelo.

1 · Loop de orquestração — chama o modelo repetidamente até a tarefa fechar.

2 · Tools — ações que o modelo pode acionar (rodar comando, ler arquivo, buscar).

3 · Memória — o que persiste entre passos e entre execuções.

4 · Contexto — o combustível da janela: o que entra a cada chamada.

5 · Estado — o registro em disco do que já aconteceu.

6 · Tratamento de erros — o que fazer quando uma tool ou o modelo falha.

7 · Guardrails — limites que impedem ações perigosas ou caras.

8 · Verificação — a prova de que o trabalho ficou de fato pronto.

9 · Permissões — o que o agente pode e não pode fazer sozinho.

10 · Subagentes — delegar partes do trabalho a outros agentes.

11 · Observabilidade — enxergar o que está acontecendo (logs, spans, custo).

12 · Co-evolução — o sistema melhora a si mesmo ao longo do tempo.

Lembre — a única coisa para carregar O prompt é uma das doze peças, não as doze. Quando você ouvir "engenharia de agentes", pense nesta lista — não em um único campo de texto.

As quatro camadas de engenharia

Há quatro camadas empilhadas, da mais fina para a mais ampla. Confundi-las é a fonte de metade da confusão sobre agentes — então vamos separá-las com clareza:

Prompt engineering — o que pedir. Context engineering — com que combustível encher a janela. Harness engineering — como o sistema opera (o loop, as tools, os gates). Loop engineering — o control plane acima de tudo: como o trabalho é decidido, dividido e provado.

Cada camada engloba a anterior. O Alembic vive nas duas de cima: ele é um @alembic/harness conduzido por uma disciplina de loop (o que chamaremos de Prelúdio + Coda nas próximas lições).

Cada camada engloba a anterior. O Alembic é harness + loop. Fonte: PROMPT-BLIND-PLANNING.md.

Camada	O que é	Papel no Alembic
Prompt engineering	O que pedir ao modelo	Prompts de unit, o grill do forge
Context engineering	Combustível da janela	Compaction, injeção de embeds
Harness engineering	Como o sistema opera	`@alembic/harness`
Loop engineering	Control plane meta	Prelúdio + Coda, os gates

Papo técnico — pode pular numa primeira leitura No monorepo, "harness engineering" é literalmente o pacote @alembic/harness (o HarnessCore, o event bus, as swimlanes). "Loop engineering" é o control plane que o envolve: os gates de Scope, Proof, Course e Publish, e a regra Validador ≠ construtor.

Alembic, o condutor

Agora a parte que dá nome ao produto. No stack da Appfy, o Alembic é o nome da camada de harness — o repo appfy/alembic, os pacotes @alembic/*, o estado em ~/.alembic/runs/<id>/. Mas o ponto importante é o que ele escolhe ser.

Existem ótimas interfaces de agente por aí — o Droid, o Claude Code, o Kimi, cada um com suas telas de /missions, /workflows, /swarm. A tentação fácil seria copiar uma quarta UI parecida. O Alembic recusa esse caminho. Em vez de ser mais um orquestrador genérico, ele é o condutor: pega o DNA de três ideias — Mission (a missão), Workflow (o fluxo) e Swarm (o enxame de agentes) — e funde tudo sob a batuta dos gates de Loop Engineering.

Pense como… a diferença entre comprar mais um instrumento e contratar o maestro. Qualquer um pode ter violinos (uma UI de agente). Poucos têm quem rege a orquestra inteira, garante que cada seção entra na hora e para tudo se a peça vai descarrilhar. O Alembic segura a batuta.

O condutor não é uma quarta UI: funde Mission + Workflow + Swarm sob gates. Fonte: PROMPT-BLIND-PLANNING.md § O produto: Alembic.

A diferença em uma linha

Uma UI de agente te dá botões. Um condutor te dá garantias: o trabalho é roteado, verificado num proof gate e barrado se um Council diz NO_GO — antes de qualquer ação cara acontecer.

No código

Tudo isso não é metáfora — é código que você pode abrir. Aqui está o esqueleto do condutor e da disciplina de loop, em forma de pseudocódigo legível.

@alembic/harness — o Conductor

HarnessCore.start → fanout → poll → report
EventBus + swimlanes (um span por unidade)
Council NO_GO → abort fanout   // fail-closed

loop-engineering/SKILL.md — o control plane

LEARN → ANALYZE → EXECUTE ONE → VERIFY → DECIDE
Gates: Scope | Proof | Course | Publish
Validador ≠ construtor   // quem prova não é quem fez

O control plane do Loop Engineering: aprender, analisar, executar UMA unidade, verificar, decidir — e repetir.

Nosso exemplo do curso: uma unidade do pedido ao ship. Um NO_GO do Council aborta antes de qualquer ação cara — fail-closed.

Acompanhe — uma unidade de trabalho atravessando o sistema

Pedido entra. O condutor recebe o objetivo e o quebra em unidades de trabalho.

Roteamento por tier. Cada unidade vai para o modelo mais barato da sua faixa de risco — o harness escolhe, não o prompt.

Gates. Antes de agir, um Council pode dar GO/NO_GO; um NO_GO aborta o fanout (fail-closed).

Proof gate. A unidade só conta como pronta quando uma verificação independente passa — não quando o modelo diz "feito".

Agora você: sem olhar acima, diga em qual passo o "harness" (e não o modelo) está claramente no comando. (Resposta: nos passos 2, 3 e 4 — roteamento, gate e prova são todos arnês.)

Dica Sempre que você ler fail-closed neste curso, traduza por: "na dúvida, pare, não prossiga". É o oposto de fail-open (seguir mesmo sem certeza). Um bom harness falha fechado.

Experimente: as três camadas

Clique em cada camada abaixo. O painel mostra o que ela commoditiza ou compõe, e o diagrama acende a parte correspondente da pilha. Use isto para fixar a diferença entre Model, Harness e Alembic.

Model

Carregando…

A metáfora central: o modelo é a seção de instrumentos; o harness é a partitura e a regência; o Alembic é o maestro.

Recapitulando em slides

Passe pelos slides para revisar os pontos-chave. Use as setas do teclado ou os botões.

Tese

Se você não é o modelo, você é o harness

Você quase nunca treina um modelo de fronteira. O que você constrói é tudo em volta dele.

Equação

Agente = Modelo + Harness

O modelo raciocina; o harness — loop, tools, estado, gates, verificação — torna o trabalho confiável.

Evidência

Rank 30 → 5, mesmo modelo

A LangChain trocou só o harness e ganhou 25 posições. O Pi lidera com 4 tools. O arnês é a variável.

Camadas

Quatro camadas, o Alembic nas duas de cima

Prompt → Context → Harness → Loop. O Alembic é harness conduzido por disciplina de loop.

Produto

Alembic é condutor, não a quarta UI

Funde Mission + Workflow + Swarm sob gates de Loop Engineering. Garantias, não só botões.

Slide 1 / 5 ← → navegam

Recuperação ativa: feche os olhos e tente recitar a equação central e a peça de evidência. Conseguiu? Esse esforço é o que fixa na memória de longo prazo.

Verifique seu entendimento

Revisão da Lição 1

Três perguntas. Responda de memória — o placar acompanha seus acertos.

1 · O que a frase "if you're not the model, you're the harness" quer dizer?

Correto: B. Você quase nunca treina o modelo; constrói o que o cerca — loop, tools, estado, verificação.
A erra: o curso mostra o oposto — prompts menores (200–1000 tokens no Pi) vencem com arnês melhor.
C erra: a tese não é sobre local vs. fronteira; é sobre onde está o valor (no arnês), seja qual for o modelo.

2 · Por que o experimento da LangChain (rank 30 → 5) prova a tese tão bem?

Correto: C. Com o modelo como constante, todo o ganho de 25 posições só pode vir da única variável: o harness.
A erra: o modelo não mudou — esse é justamente o ponto que isola a causa.
B erra: o curso associa vitória a prompts menores e arnês fino, não a prompts maiores.

3 · Qual frase descreve melhor o que o Alembic escolhe ser?

Correto: A. O Alembic é o condutor — funde o DNA de Mission + Workflow + Swarm sob os gates de Loop Engineering.
B erra: ele recusa ser mais um orquestrador genérico; essa é a decisão central do produto.
C erra: o Alembic é a camada de harness; o modelo permanece intercambiável e empurrado para baixo da cintura.

Acertos: 0/3

As Três para levar (versão curta)

Agente = Modelo + Harness. Decore a equação; ela organiza o curso inteiro.
O arnês é a variável que você controla — e a que mais move o resultado (rank 30 → 5).
O Alembic é condutor, não UI. Ele dá garantias (roteamento, proof gate, fail-closed), não só botões.

Leia/assista a seguir

PROMPT-BLIND-PLANNING.md (abertura) · corpus synthesis-harness-distribution · embed langchain-anatomy

Dúvida sobre qualquer ponto? Pergunte ao seu agente-tutor — ele tem o contexto desta lição e pode aprofundar qualquer parte.

A seguir, Lição 2 · Disciplina de evidência: como um agente que planeja "às cegas" deve provar cada afirmação em vez de confiar na própria narrativa.