aleks/Business

Fork 0

Files

T

aleks d0a4bec742 ingest: 55-of-employers-regret-ai-driven

2026-05-18 14:37:06 +03:00

8.1 KiB

Raw Blame History

title, source, author, published, processed, slug, type, themes, frameworks, terminology

title

source

author

published

processed

slug

type

themes

frameworks

terminology

55% работодателей сожалеют об ИИ-увольнениях: агенты хороши в задачах, плохи в работах

https://natesnewsletter.substack.com/p/55-of-employers-regret-ai-driven

Nate Jones (Nate's Substack)

2026-03-21

2026-05-18

55-of-employers-regret-ai-driven

video

Agentic Workflow

Evals

Implementation Layer

Audit Trails

Contextual Stewardship

Task-versus-Job Gap

Evals

Agentic Workflow

Implementation Layer

Audit Trails

Forward Deployed Engineer

Harness

55% работодателей сожалеют об ИИ-увольнениях

Центральный тезис

Средняя продолжительность работы в ИТ — 18 месяцев–2 года. Средний запуск ИИ-агента — около 2 часов. Эти числа несопоставимы. Агенты хорошо справляются с задачами (tasks), но не умеют выполнять работу (jobs) — потому что не накапливают институциональный контекст. Чем мощнее агент, тем разрушительнее его «молчаливые» ошибки.

"A mediocre tool that fails obviously is annoying. A powerful tool that fails silently is dangerous." Посредственный инструмент, который ломается очевидно — раздражает. Мощный инструмент, который ломается незаметно — опасен.

Якорный кейс: Grigorev и продакшн-база

Инженер Алексей Григорьев запустил ИИ-агент (через Cursor). Агент уничтожил 1,9 млн строк данных студентов вместе с бэкапами. Технических ошибок не было — каждое действие было локально корректным. Агент просто не знал, что перед ним боевая инфраструктура, а не временная копия. Знание об этом различии существовало только в голове инженера.

Три новых исследования подтверждают: это паттерн, не случайность.

Ключевые фреймворки

Task-versus-Job Gap — Разрыв задача-работа

Два бенчмарка на одних и тех же моделях дали кардинально разные результаты. Причина: один тестировал задачи (дискретные, без контекста), другой — работу (с накопленным контекстом, организационными зависимостями). Агенты побеждают в первом, проваливаются во втором.

Contextual Stewardship — Контекстное стюардство

Новая роль человека в связке с агентами — не управление задачами, а хранение и передача контекста. Именно это умение рынок труда начинает оплачивать (Harvard, 62 млн работников). Лучшие люди должны писать Evals, а не выполнять рутину.

Три промпта для закрытия разрыва

#	Название (EN)	Назначение
1	Context gap audit	Аудит того, что агент не знает о вашем контексте
2	Eval writer for non-engineers	Написание Evals без навыков разработки
3	Decision documenter	Фиксация логики решений, которую агент никогда не узнает сам

"The best tools we have for managing agent risk are human brains and human brains crafting evaluations. Not better prompts. Not bigger context windows." Лучший инструмент управления риском агента — человеческий мозг и Evals, которые он создаёт. Не лучшие промпты. Не большее контекстное окно.

Терминология

RU	EN	Примечание
Разрыв задача-работа	Task-versus-job gap	Центральный концепт статьи
Контекстное стюардство	Contextual stewardship	Новая роль человека рядом с агентом
Институциональный контекст	Institutional context	Знание, живущее только в головах людей
Стена вайб-кодинга	Vibe coding wall	Момент, где AI-разработка упирается в пределы промптинга
Аудит контекстного разрыва	Context gap audit	Промпт №1 для диагностики
Evals	Evals	Оценочные наборы; писать должны лучшие, не джуны
Audit Trails	Audit trails	Фиксация решений для передачи агентам
Agentic Workflow	Agentic workflow	Рабочий процесс с делегированием агентам
Implementation Layer	Implementation layer	Слой между моделью и реальным workflow

Что использовать для нашего портфеля

Как AI-интегратор и Implementation Layer:

Контекстное стюардство как продукт. Клиент покупает не агента — он покупает систему передачи институционального контекста агентам. Это наша ценность: мы знаем, как описать «что живёт только в голове у инженера» в форме, понятной агенту. Это ближе к Forward Deployed Engineer, чем к вендору ПО.
Evals как deliverable. Вместо того чтобы писать Evals силами джунов, предлагать клиенту услугу: «ваши лучшие эксперты + наш Harness → корпоративный eval-набор». Это защищает от тихих отказов агентов.
Audit Trails как обязательный компонент. Кейс Григорьева показывает: отсутствие фиксации контекста решений = риск уничтожения данных. Каждый Agentic Workflow в нашем Implementation Layer должен включать decision log.
PE-канал: фрейм «сожаление». 55% работодателей сожалеют — значит, у них есть болевая точка для разговора. Заход: «Вы уже попробовали агентов. Что пошло не так?» → диагностика контекстного разрыва → наш Implementation Layer.

Открытые вопросы

Какие конкретно из наших клиентов уже столкнулись с «молчаливыми» отказами агентов? Есть ли у нас кейсы, аналогичные Grigorev?
Как операционализировать «контекстное стюардство» в наш onboarding-процесс для новых клиентов?

Связанные заметки: Evals, Agentic Workflow, Implementation Layer, Audit Trails, Forward Deployed Engineer, Harness

8.1 KiB Raw Blame History