ingest: same-model-78-vs-42-the-harness-made

This commit is contained in:
2026-05-18 14:30:38 +03:00
parent 267117336f
commit 840006f331
2 changed files with 293 additions and 0 deletions
@@ -0,0 +1,124 @@
---
title: "Harness > Model: 78% vs 42% на одной модели"
slug: same-model-78-vs-42-the-harness-made
source: https://natesnewsletter.substack.com/p/same-model-78-vs-42-the-harness-made
author: Nate Jones (natesnewsletter.substack.com)
published: 2026-03-06
processed: 2026-05-18
type: video
themes:
- "[[Harness]]"
- "[[Moat]]"
- "[[Agentic Workflow]]"
- "[[Implementation Layer]]"
frameworks:
- "[[Harness Audit]]"
- "[[Workflow Completion]]"
- "[[Evals]]"
terminology:
- "[[Harness]]"
- "[[Evals]]"
- "[[Moat]]"
- "[[Implementation Fabric]]"
- "[[Forward Deployed Engineer]]"
- "[[Frontier Labs]]"
- "[[Implementation Layer]]"
---
# Harness > Model: 78% vs 42% на одной модели
## Главный тезис
> "They compared the wrong thing."
> *Они сравнивали не то.*
Сообщество разработчиков потратило три недели на сравнение Claude Opus 4.6 и GPT-5.3-Codex — и сравнивало не то. Модель — это мозг. [[Harness]] — это всё остальное: где AI запускается, что он помнит между сессиями, к каким инструментам имеет доступ, как управляет параллельными задачами, насколько глубоко ваша команда строит зависимость каждую неделю.
**Ключевая цифра:** та же самая модель набрала 78% в одном [[Harness|харнессе]] и 42% в другом. Стандартный процесс [[Evals|эвалюации]] эту разницу не поймает.
---
## Два харнесс-беттинга: Claude Code vs Codex
| Параметр | Claude Code | Codex (OpenAI) |
|---|---|---|
| Среда запуска (EN: runtime) | Ваш локальный environment, полный доступ к машине | Изолированная «запечатанная комната» (sealed room) с копией кода |
| Память проекта (EN: project memory) | Накапливается между сессиями | Отсутствует; каждый запуск с нуля |
| Режим работы | Открытый, в реальном окружении | Приватное мышление → готовый результат «под дверь» |
| Конвергенция | Нет — оба бетта работают, ни один не движется к другому | |
Оба подхода жизнеспособны. Ни один не становится другим. Это не конкуренция — это **два разных контракта** с командой.
---
## Механизм lock-in: накопленные слои
> "One developer built six layers of workflow automation over a few months, each layer depending on the previous one."
> *Один разработчик выстроил шесть слоёв автоматизации за несколько месяцев — каждый опирается на предыдущий.*
Переход на другой харнесс сбрасывает все слои в ноль. Умноженный на каждого инженера в команде — это **harness lock-in**, который никто не закладывает в стоимость решения.
**Пять архитектурных решений**, которые компаундируют зависимость прямо сейчас (каждое отдельно, все вместе):
1. Где хранится память проекта
2. Какие инструменты доступны агенту
3. Как управляются параллельные задачи
4. Насколько глубоко команда строит [[Workflow Completion|завершение рабочих процессов]] поверх харнесса
5. Как харнесс накапливает контекст между сессиями
---
## Экономика: кейс Cursor
Cursor — компания с оценкой $2 млрд, тратящая 100% выручки на API-costs. Это **слепое пятно экономики харнессов**: когда инструмент становится [[Implementation Layer|слоем реализации]], стоимость переключения растёт быстрее, чем стоимость использования.
---
## Инструменты из материала
### 1. Harness Audit (5 измерений)
Промпт, который:
- спрашивает, что вы построили
- картирует уязвимости зависимости
- говорит, что делать на этой неделе
### 2. Executive Brief Generator
Переводит аудит в инженеро-недели и деньги — для выравнивания leadership на харнесс-решение как стратегическом обязательстве, а не покупке инструмента.
---
## Терминология
| RU | EN | Wikilink |
|---|---|---|
| Харнесс | Harness | [[Harness]] |
| Запечатанная комната | Sealed room | — |
| Зависимость от харнесса | Harness lock-in | — |
| Слой реализации | Implementation layer | [[Implementation Layer]] |
| Оценка качества | Evals | [[Evals]] |
| Ров / конкурентная защита | Moat | [[Moat]] |
| Ткань реализации | Implementation fabric | [[Implementation Fabric]] |
| Фронтовой инженер | Forward Deployed Engineer | [[Forward Deployed Engineer]] |
| Завершение рабочих процессов | Workflow Completion | [[Workflow Completion]] |
---
## Что использовать для нашего портфеля
Как **AI-интегратор**, работающий через [[Implementation Layer]] и продающий через PE-канал:
1. **Harness — наш продукт, не модель.** Клиент не покупает доступ к GPT или Claude — он покупает накопленный [[Harness]], выстроенный вокруг его [[Systems of Record|систем записи]]. Это наш [[Moat]].
2. **Шесть слоёв накопления = питч для PE.** Каждый слой [[Agentic Workflow|агентного воркфлоу]], построенный поверх клиентской инфраструктуры, увеличивает стоимость переключения и защищает recurring revenue. PE понимает этот язык.
3. **[[Implementation Fabric]] как harness-стратегия.** Наша [[Implementation Fabric]] — это и есть харнесс: память проекта, инструменты, интеграции с [[Business Object|бизнес-объектами]]. Важно артикулировать это явно в клиентских документах.
4. **Harness Audit как точка входа.** 2 промпта из материала — готовый discovery-инструмент: аудит текущего харнесса клиента покажет, где он уязвим и где мы добавляем ценность.
5. **[[Forward Deployed Engineer]] модель.** Anthropic строит enterprise AI services для mid-market именно потому, что [[Implementation Layer]] требует присутствия. Это подтверждает нашу модель FDE-доставки.
---
## Открытые вопросы
- Как нам измерять «глубину харнессной зависимости» у клиента на этапе discovery — какие 3–5 вопросов дают сигнал быстрее всего?
- Есть ли у нас внутренний аналог «harness audit»-промпта, который можно показывать на первой встрече с PE-портфельной компанией?
File diff suppressed because one or more lines are too long