Часть VI · Глубокие разборы · Глава 15

Деградация LLM, tool use, лимиты

Последняя глава о суровой реальности эксплуатации: почему «Claude сегодня тупее» бывает правдой при замороженных весах, как экономить токены на уровне API, и что делать, когда упёрся в лимит.

⏱ ~15 минут источник: reports/llm-day-to-day-degradation · advanced-tool-use · usage-and-rate-limits Claude Code v2.1.179

§1 · Деградация

Замороженные веса ≠ замороженное поведение

После запуска модели её веса заморожены: переобучать никто не будет, это миллионы долларов. Но веса — лишь нижний слой. Над ними девять слоёв инференса, и каждый может менять то, что ты получаешь. Ощущение «модель отупела» реально, но обычно неверно атрибутировано.

Доказанные причины

Инфраструктура

Постмортем Anthropic за сентябрь 2025: три бага уронили качество, до 16% запросов Sonnet в худший час. MoE-роутинг даёт ±8-14% разброса даже без изменений: один и тот же тест 77% в один день и 63% в другой.

Восприятие

Психология

Confirmation bias (твитнули «тупой» — замечаешь все ошибки), honeymoon-эффект, миф про «выходной Claude» (паттернов по дням недели не нашли). Шум ±8-14% не даёт отличить реальные 5% от случайности.

Скриншоты твитов: пользователи сообщают о ежедневных колебаниях качества Claude. — Плашка 1.1 · Жалобы на колебания качества. За ними реальные причины, но и усиление восприятием. Из репозитория.

Самое действенное, что можно сделать

Частая причина «Claude отупел» внутри сессии — загрязнение контекста: ранние ошибки копятся, модель видит их и тиражирует. Лечится одной командой: /compact или свежая сессия. На проде — пинь снапшот модели вместо плавающего алиаса, держи дневной канари-набор и фоллбэк-провайдера.

§2 · Продвинутый tool use

API-фичи ради токенов и точности

Четыре фичи уровня API (GA с февраля 2026) бьют по разным узким местам. Начинай с самого большого.

Что и сколько экономит
Фича	Проблема	Эффект
Programmatic Tool Calling	многошаговые петли жгут токены на round-trip'ах	~37% меньше токенов
Dynamic Filtering	веб-результаты раздувают контекст мусором	~24% меньше входных
Tool Search	много определений инструментов раздувают контекст	~85% меньше
Tool Use Examples	схема не выражает паттерны использования	точность 72% → 90%

Схема: традиционный вызов инструментов против программного — Claude пишет код, который сам оркеструет инструменты. — Плашка 2.1 · PTC: вместо трёх round-trip'ов Claude пишет код, тот сам зовёт инструменты, в контекст попадает только финальный stdout. Три инструмента = один проход инференса.

Что из этого уже в Claude Code

Tool Search встроен как MCPSearch auto с v2.1.7: когда описания MCP-инструментов превышают порог контекста, они откладываются и ищутся по требованию (мы видели это в Главе 04). Настройка — ENABLE_TOOL_SEARCH=auto:N. PTC и Dynamic Filtering — для тех, кто строит агентов на Agent SDK.

§3 · Лимиты

Когда упёрся в потолок

На подписке (Pro, Max) лимиты сбрасываются скользящим окном раз в 5 часов. Три команды помогают жить с этим.

Мониторинг и продолжение
Команда	Что делает
/usage	Показать лимиты плана и статус. Сброс каждые 5 часов.
/extra-usage	Pay-as-you-go перелив: упёрся в лимит — работа продолжается, токены сверху по обычным API-ценам. Лимит редемпшна $2000/день.
/cost	Траты текущей сессии (для API-ключей).

Грабли fast mode

/fast (быстрый Opus из Главы 09) всегда биллится в extra-usage с первого токена, даже если на подписке ещё есть лимит. То есть для fast mode нужен включённый и пополненный extra-usage. Для API-ключей бюджет режут флаги --max-budget-usd и --max-turns.

Шпаргалка главы

Шесть тезисов на вынос

Веса заморожены, поведение — нет. 9 слоёв инференса, баги инфраструктуры (до 16%), MoE-разброс ±8-14%.
Внутри сессии тупеет от загрязнения контекста. Лечится /compact или свежей сессией.
На проде: пинь снапшот, канари-набор, фоллбэк. Отличай «качество модели» от «надёжности сервинга».
Tool use фичи: PTC (~37%), Dynamic Filtering (~24%), Tool Search (~85%), Examples (72→90%).
Tool Search уже в CLI как MCPSearch auto (v2.1.7), ENABLE_TOOL_SEARCH=auto:N.
Лимиты: /usage, /extra-usage (перелив, сброс 5ч), fast mode всегда в extra-usage.

Конец книги

Шестнадцать глав пройдены: от харнесса и трёх примитивов до оркестрации, мощных режимов, практики мастеров и внутренностей. Дальше — практика. Возьми одну привычку Бориса, один воркфлоу, один скилл и доведи до автоматизма. Вернуться к оглавлению →