ingest: same-model-78-vs-42-the-harness-made
This commit is contained in:
@@ -0,0 +1,124 @@
|
||||
---
|
||||
title: "Harness > Model: 78% vs 42% на одной модели"
|
||||
slug: same-model-78-vs-42-the-harness-made
|
||||
source: https://natesnewsletter.substack.com/p/same-model-78-vs-42-the-harness-made
|
||||
author: Nate Jones (natesnewsletter.substack.com)
|
||||
published: 2026-03-06
|
||||
processed: 2026-05-18
|
||||
type: video
|
||||
themes:
|
||||
- "[[Harness]]"
|
||||
- "[[Moat]]"
|
||||
- "[[Agentic Workflow]]"
|
||||
- "[[Implementation Layer]]"
|
||||
frameworks:
|
||||
- "[[Harness Audit]]"
|
||||
- "[[Workflow Completion]]"
|
||||
- "[[Evals]]"
|
||||
terminology:
|
||||
- "[[Harness]]"
|
||||
- "[[Evals]]"
|
||||
- "[[Moat]]"
|
||||
- "[[Implementation Fabric]]"
|
||||
- "[[Forward Deployed Engineer]]"
|
||||
- "[[Frontier Labs]]"
|
||||
- "[[Implementation Layer]]"
|
||||
---
|
||||
|
||||
# Harness > Model: 78% vs 42% на одной модели
|
||||
|
||||
## Главный тезис
|
||||
|
||||
> "They compared the wrong thing."
|
||||
> *Они сравнивали не то.*
|
||||
|
||||
Сообщество разработчиков потратило три недели на сравнение Claude Opus 4.6 и GPT-5.3-Codex — и сравнивало не то. Модель — это мозг. [[Harness]] — это всё остальное: где AI запускается, что он помнит между сессиями, к каким инструментам имеет доступ, как управляет параллельными задачами, насколько глубоко ваша команда строит зависимость каждую неделю.
|
||||
|
||||
**Ключевая цифра:** та же самая модель набрала 78% в одном [[Harness|харнессе]] и 42% в другом. Стандартный процесс [[Evals|эвалюации]] эту разницу не поймает.
|
||||
|
||||
---
|
||||
|
||||
## Два харнесс-беттинга: Claude Code vs Codex
|
||||
|
||||
| Параметр | Claude Code | Codex (OpenAI) |
|
||||
|---|---|---|
|
||||
| Среда запуска (EN: runtime) | Ваш локальный environment, полный доступ к машине | Изолированная «запечатанная комната» (sealed room) с копией кода |
|
||||
| Память проекта (EN: project memory) | Накапливается между сессиями | Отсутствует; каждый запуск с нуля |
|
||||
| Режим работы | Открытый, в реальном окружении | Приватное мышление → готовый результат «под дверь» |
|
||||
| Конвергенция | Нет — оба бетта работают, ни один не движется к другому | |
|
||||
|
||||
Оба подхода жизнеспособны. Ни один не становится другим. Это не конкуренция — это **два разных контракта** с командой.
|
||||
|
||||
---
|
||||
|
||||
## Механизм lock-in: накопленные слои
|
||||
|
||||
> "One developer built six layers of workflow automation over a few months, each layer depending on the previous one."
|
||||
> *Один разработчик выстроил шесть слоёв автоматизации за несколько месяцев — каждый опирается на предыдущий.*
|
||||
|
||||
Переход на другой харнесс сбрасывает все слои в ноль. Умноженный на каждого инженера в команде — это **harness lock-in**, который никто не закладывает в стоимость решения.
|
||||
|
||||
**Пять архитектурных решений**, которые компаундируют зависимость прямо сейчас (каждое отдельно, все вместе):
|
||||
1. Где хранится память проекта
|
||||
2. Какие инструменты доступны агенту
|
||||
3. Как управляются параллельные задачи
|
||||
4. Насколько глубоко команда строит [[Workflow Completion|завершение рабочих процессов]] поверх харнесса
|
||||
5. Как харнесс накапливает контекст между сессиями
|
||||
|
||||
---
|
||||
|
||||
## Экономика: кейс Cursor
|
||||
|
||||
Cursor — компания с оценкой $2 млрд, тратящая 100% выручки на API-costs. Это **слепое пятно экономики харнессов**: когда инструмент становится [[Implementation Layer|слоем реализации]], стоимость переключения растёт быстрее, чем стоимость использования.
|
||||
|
||||
---
|
||||
|
||||
## Инструменты из материала
|
||||
|
||||
### 1. Harness Audit (5 измерений)
|
||||
Промпт, который:
|
||||
- спрашивает, что вы построили
|
||||
- картирует уязвимости зависимости
|
||||
- говорит, что делать на этой неделе
|
||||
|
||||
### 2. Executive Brief Generator
|
||||
Переводит аудит в инженеро-недели и деньги — для выравнивания leadership на харнесс-решение как стратегическом обязательстве, а не покупке инструмента.
|
||||
|
||||
---
|
||||
|
||||
## Терминология
|
||||
|
||||
| RU | EN | Wikilink |
|
||||
|---|---|---|
|
||||
| Харнесс | Harness | [[Harness]] |
|
||||
| Запечатанная комната | Sealed room | — |
|
||||
| Зависимость от харнесса | Harness lock-in | — |
|
||||
| Слой реализации | Implementation layer | [[Implementation Layer]] |
|
||||
| Оценка качества | Evals | [[Evals]] |
|
||||
| Ров / конкурентная защита | Moat | [[Moat]] |
|
||||
| Ткань реализации | Implementation fabric | [[Implementation Fabric]] |
|
||||
| Фронтовой инженер | Forward Deployed Engineer | [[Forward Deployed Engineer]] |
|
||||
| Завершение рабочих процессов | Workflow Completion | [[Workflow Completion]] |
|
||||
|
||||
---
|
||||
|
||||
## Что использовать для нашего портфеля
|
||||
|
||||
Как **AI-интегратор**, работающий через [[Implementation Layer]] и продающий через PE-канал:
|
||||
|
||||
1. **Harness — наш продукт, не модель.** Клиент не покупает доступ к GPT или Claude — он покупает накопленный [[Harness]], выстроенный вокруг его [[Systems of Record|систем записи]]. Это наш [[Moat]].
|
||||
|
||||
2. **Шесть слоёв накопления = питч для PE.** Каждый слой [[Agentic Workflow|агентного воркфлоу]], построенный поверх клиентской инфраструктуры, увеличивает стоимость переключения и защищает recurring revenue. PE понимает этот язык.
|
||||
|
||||
3. **[[Implementation Fabric]] как harness-стратегия.** Наша [[Implementation Fabric]] — это и есть харнесс: память проекта, инструменты, интеграции с [[Business Object|бизнес-объектами]]. Важно артикулировать это явно в клиентских документах.
|
||||
|
||||
4. **Harness Audit как точка входа.** 2 промпта из материала — готовый discovery-инструмент: аудит текущего харнесса клиента покажет, где он уязвим и где мы добавляем ценность.
|
||||
|
||||
5. **[[Forward Deployed Engineer]] модель.** Anthropic строит enterprise AI services для mid-market именно потому, что [[Implementation Layer]] требует присутствия. Это подтверждает нашу модель FDE-доставки.
|
||||
|
||||
---
|
||||
|
||||
## Открытые вопросы
|
||||
|
||||
- Как нам измерять «глубину харнессной зависимости» у клиента на этапе discovery — какие 3–5 вопросов дают сигнал быстрее всего?
|
||||
- Есть ли у нас внутренний аналог «harness audit»-промпта, который можно показывать на первой встрече с PE-портфельной компанией?
|
||||
File diff suppressed because one or more lines are too long
Reference in New Issue
Block a user