ingest: same-model-78-vs-42-the-harness-made

2026-05-18 14:30:38 +03:00
parent 267117336f
commit 840006f331
2 changed files with 293 additions and 0 deletions
@@ -0,0 +1,124 @@
+---
+title: "Harness > Model: 78% vs 42% на одной модели"
+slug: same-model-78-vs-42-the-harness-made
+source: https://natesnewsletter.substack.com/p/same-model-78-vs-42-the-harness-made
+author: Nate Jones (natesnewsletter.substack.com)
+published: 2026-03-06
+processed: 2026-05-18
+type: video
+themes:
+  - "[[Harness]]"
+  - "[[Moat]]"
+  - "[[Agentic Workflow]]"
+  - "[[Implementation Layer]]"
+frameworks:
+  - "[[Harness Audit]]"
+  - "[[Workflow Completion]]"
+  - "[[Evals]]"
+terminology:
+  - "[[Harness]]"
+  - "[[Evals]]"
+  - "[[Moat]]"
+  - "[[Implementation Fabric]]"
+  - "[[Forward Deployed Engineer]]"
+  - "[[Frontier Labs]]"
+  - "[[Implementation Layer]]"
+---
+
+# Harness > Model: 78% vs 42% на одной модели
+
+## Главный тезис
+
+> "They compared the wrong thing."
+> *Они сравнивали не то.*
+
+Сообщество разработчиков потратило три недели на сравнение Claude Opus 4.6 и GPT-5.3-Codex — и сравнивало не то. Модель — это мозг. [[Harness]] — это всё остальное: где AI запускается, что он помнит между сессиями, к каким инструментам имеет доступ, как управляет параллельными задачами, насколько глубоко ваша команда строит зависимость каждую неделю.
+
+**Ключевая цифра:** та же самая модель набрала 78% в одном [[Harness|харнессе]] и 42% в другом. Стандартный процесс [[Evals|эвалюации]] эту разницу не поймает.
+
+---
+
+## Два харнесс-беттинга: Claude Code vs Codex
+
+| Параметр | Claude Code | Codex (OpenAI) |
+|---|---|---|
+| Среда запуска (EN: runtime) | Ваш локальный environment, полный доступ к машине | Изолированная «запечатанная комната» (sealed room) с копией кода |
+| Память проекта (EN: project memory) | Накапливается между сессиями | Отсутствует; каждый запуск с нуля |
+| Режим работы | Открытый, в реальном окружении | Приватное мышление → готовый результат «под дверь» |
+| Конвергенция | Нет — оба бетта работают, ни один не движется к другому |  |
+
+Оба подхода жизнеспособны. Ни один не становится другим. Это не конкуренция — это **два разных контракта** с командой.
+
+---
+
+## Механизм lock-in: накопленные слои
+
+> "One developer built six layers of workflow automation over a few months, each layer depending on the previous one."
+> *Один разработчик выстроил шесть слоёв автоматизации за несколько месяцев — каждый опирается на предыдущий.*
+
+Переход на другой харнесс сбрасывает все слои в ноль. Умноженный на каждого инженера в команде — это **harness lock-in**, который никто не закладывает в стоимость решения.
+
+**Пять архитектурных решений**, которые компаундируют зависимость прямо сейчас (каждое отдельно, все вместе):
+1. Где хранится память проекта
+2. Какие инструменты доступны агенту
+3. Как управляются параллельные задачи
+4. Насколько глубоко команда строит [[Workflow Completion|завершение рабочих процессов]] поверх харнесса
+5. Как харнесс накапливает контекст между сессиями
+
+---
+
+## Экономика: кейс Cursor
+
+Cursor — компания с оценкой $2 млрд, тратящая 100% выручки на API-costs. Это **слепое пятно экономики харнессов**: когда инструмент становится [[Implementation Layer|слоем реализации]], стоимость переключения растёт быстрее, чем стоимость использования.
+
+---
+
+## Инструменты из материала
+
+### 1. Harness Audit (5 измерений)
+Промпт, который:
+- спрашивает, что вы построили
+- картирует уязвимости зависимости
+- говорит, что делать на этой неделе
+
+### 2. Executive Brief Generator
+Переводит аудит в инженеро-недели и деньги — для выравнивания leadership на харнесс-решение как стратегическом обязательстве, а не покупке инструмента.
+
+---
+
+## Терминология
+
+| RU | EN | Wikilink |
+|---|---|---|
+| Харнесс | Harness | [[Harness]] |
+| Запечатанная комната | Sealed room | — |
+| Зависимость от харнесса | Harness lock-in | — |
+| Слой реализации | Implementation layer | [[Implementation Layer]] |
+| Оценка качества | Evals | [[Evals]] |
+| Ров / конкурентная защита | Moat | [[Moat]] |
+| Ткань реализации | Implementation fabric | [[Implementation Fabric]] |
+| Фронтовой инженер | Forward Deployed Engineer | [[Forward Deployed Engineer]] |
+| Завершение рабочих процессов | Workflow Completion | [[Workflow Completion]] |
+
+---
+
+## Что использовать для нашего портфеля
+
+Как **AI-интегратор**, работающий через [[Implementation Layer]] и продающий через PE-канал:
+
+1. **Harness — наш продукт, не модель.** Клиент не покупает доступ к GPT или Claude — он покупает накопленный [[Harness]], выстроенный вокруг его [[Systems of Record|систем записи]]. Это наш [[Moat]].
+
+2. **Шесть слоёв накопления = питч для PE.** Каждый слой [[Agentic Workflow|агентного воркфлоу]], построенный поверх клиентской инфраструктуры, увеличивает стоимость переключения и защищает recurring revenue. PE понимает этот язык.
+
+3. **[[Implementation Fabric]] как harness-стратегия.** Наша [[Implementation Fabric]] — это и есть харнесс: память проекта, инструменты, интеграции с [[Business Object|бизнес-объектами]]. Важно артикулировать это явно в клиентских документах.
+
+4. **Harness Audit как точка входа.** 2 промпта из материала — готовый discovery-инструмент: аудит текущего харнесса клиента покажет, где он уязвим и где мы добавляем ценность.
+
+5. **[[Forward Deployed Engineer]] модель.** Anthropic строит enterprise AI services для mid-market именно потому, что [[Implementation Layer]] требует присутствия. Это подтверждает нашу модель FDE-доставки.
+
+---
+
+## Открытые вопросы
+
+- Как нам измерять «глубину харнессной зависимости» у клиента на этапе discovery — какие 3–5 вопросов дают сигнал быстрее всего?
+- Есть ли у нас внутренний аналог «harness audit»-промпта, который можно показывать на первой встрече с PE-портфельной компанией?