Дообучение под инструкции (SFT)

Базовая модель знает много, но не слушается. Этот урок — про SFT, этап, который превращает «продолжателя текста» в ассистента, выполняющего инструкции.

SFT (supervised fine-tuning) — дообучение базовой модели на парах «инструкция → желаемый ответ», чтобы она училась отвечать, а не просто продолжать текст.

Зачем нужен этот этап

Вспомним проблему из раздела 1: базовая модель на вопрос «Как сварить кофе?» может выдать не рецепт, а продолжить список вопросов — ведь так часто бывает в её обучающих текстах. Знания есть, но нет привычки выполнять просьбу. SFT решает именно это: учит модель, что после инструкции должен идти полезный, прямой ответ.

Как устроено SFT

Берут (сравнительно небольшой по меркам предобучения) набор качественных примеров — пар «запрос → образцовый ответ», написанных людьми. Например:

Инструкция: Объясни, что такое HTTP, простыми словами.
Ответ: HTTP — это протокол, по которому браузер
        запрашивает страницы у сервера. Браузер
        отправляет запрос, сервер возвращает ответ...

Инструкция: Переведи на английский: "Доброе утро".
Ответ: Good morning.

Затем модель дообучают на этих парах той же самой задачей предсказания следующего токена — но теперь её «приучают» генерировать именно ответную часть. Механизм обучения тот же (предсказание токена, кросс-энтропия), меняются только данные: вместо сырого интернета — аккуратные демонстрации того, как надо отвечать.

Что меняется в модели

Принципиально новых знаний SFT почти не добавляет — основное модель усвоила на предобучении. SFT перенастраивает поведение: смещает распределение так, что после запроса наиболее вероятным продолжением становится полезный ответ в нужном формате. Образно: предобучение дало эрудицию, а SFT научило вежливо и по делу ею делиться.

Этап	Данные	Что даёт
Предобучение	триллионы токенов сырого текста	знания, язык, эрудиция
SFT	тысячи–сотни тысяч пар «инструкция → ответ»	умение отвечать и следовать формату

Почему важно качество примеров

Поскольку модель буквально подражает демонстрациям, их качество решает почти всё. Несколько тысяч отличных примеров полезнее миллиона посредственных: модель перенимает и стиль, и структуру, и тон образцовых ответов. Здесь работает принцип «лучше меньше, да лучше» — в отличие от предобучения, где главное объём.

Чего SFT ещё не даёт

После SFT модель уже похожа на ассистента, но у неё нет тонкого чувства, какой из двух правильных ответов лучше, и она может быть недостаточно осторожной. Доводят её до привычного нам поведения следующим этапом — выравниванием через обратную связь (RLHF), о котором следующий урок.

Итог

SFT превращает базовую модель в ассистента, дообучая на парах «инструкция → ответ».
Механизм тот же (предсказание токена), но данные — качественные демонстрации ответов.
SFT не столько добавляет знания, сколько перенастраивает поведение на «отвечать по делу».
Качество примеров критично; финальную полировку даёт следующий этап — RLHF.