Дообучение под инструкции (SFT)
Базовая модель знает много, но не слушается. Этот урок — про SFT, этап, который превращает «продолжателя текста» в ассистента, выполняющего инструкции.
SFT (supervised fine-tuning) — дообучение базовой модели на парах «инструкция → желаемый ответ», чтобы она училась отвечать, а не просто продолжать текст.
Зачем нужен этот этап
Вспомним проблему из раздела 1: базовая модель на вопрос «Как сварить кофе?» может выдать не рецепт, а продолжить список вопросов — ведь так часто бывает в её обучающих текстах. Знания есть, но нет привычки выполнять просьбу. SFT решает именно это: учит модель, что после инструкции должен идти полезный, прямой ответ.
Как устроено SFT
Берут (сравнительно небольшой по меркам предобучения) набор качественных примеров — пар «запрос → образцовый ответ», написанных людьми. Например:
Инструкция: Объясни, что такое HTTP, простыми словами.
Ответ: HTTP — это протокол, по которому браузер
запрашивает страницы у сервера. Браузер
отправляет запрос, сервер возвращает ответ...
Инструкция: Переведи на английский: "Доброе утро".
Ответ: Good morning.
Затем модель дообучают на этих парах той же самой задачей предсказания следующего токена — но теперь её «приучают» генерировать именно ответную часть. Механизм обучения тот же (предсказание токена, кросс-энтропия), меняются только данные: вместо сырого интернета — аккуратные демонстрации того, как надо отвечать.
Что меняется в модели
Принципиально новых знаний SFT почти не добавляет — основное модель усвоила на предобучении. SFT перенастраивает поведение: смещает распределение так, что после запроса наиболее вероятным продолжением становится полезный ответ в нужном формате. Образно: предобучение дало эрудицию, а SFT научило вежливо и по делу ею делиться.
| Этап | Данные | Что даёт |
| Предобучение | триллионы токенов сырого текста | знания, язык, эрудиция |
| SFT | тысячи–сотни тысяч пар «инструкция → ответ» | умение отвечать и следовать формату |
Почему важно качество примеров
Поскольку модель буквально подражает демонстрациям, их качество решает почти всё. Несколько тысяч отличных примеров полезнее миллиона посредственных: модель перенимает и стиль, и структуру, и тон образцовых ответов. Здесь работает принцип «лучше меньше, да лучше» — в отличие от предобучения, где главное объём.
Чего SFT ещё не даёт
После SFT модель уже похожа на ассистента, но у неё нет тонкого чувства, какой из двух правильных ответов лучше, и она может быть недостаточно осторожной. Доводят её до привычного нам поведения следующим этапом — выравниванием через обратную связь (RLHF), о котором следующий урок.
Итог
- SFT превращает базовую модель в ассистента, дообучая на парах «инструкция → ответ».
- Механизм тот же (предсказание токена), но данные — качественные демонстрации ответов.
- SFT не столько добавляет знания, сколько перенастраивает поведение на «отвечать по делу».
- Качество примеров критично; финальную полировку даёт следующий этап — RLHF.