Дообучение под инструкции (SFT)

Базовая модель знает много, но не слушается. Этот урок — про SFT, этап, который превращает «продолжателя текста» в ассистента, выполняющего инструкции.

SFT (supervised fine-tuning) — дообучение базовой модели на парах «инструкция → желаемый ответ», чтобы она училась отвечать, а не просто продолжать текст.

Зачем нужен этот этап

Вспомним проблему из раздела 1: базовая модель на вопрос «Как сварить кофе?» может выдать не рецепт, а продолжить список вопросов — ведь так часто бывает в её обучающих текстах. Знания есть, но нет привычки выполнять просьбу. SFT решает именно это: учит модель, что после инструкции должен идти полезный, прямой ответ.

Как устроено SFT

Берут (сравнительно небольшой по меркам предобучения) набор качественных примеров — пар «запрос → образцовый ответ», написанных людьми. Например:

Инструкция: Объясни, что такое HTTP, простыми словами.
Ответ: HTTP — это протокол, по которому браузер
        запрашивает страницы у сервера. Браузер
        отправляет запрос, сервер возвращает ответ...

Инструкция: Переведи на английский: "Доброе утро".
Ответ: Good morning.

Затем модель дообучают на этих парах той же самой задачей предсказания следующего токена — но теперь её «приучают» генерировать именно ответную часть. Механизм обучения тот же (предсказание токена, кросс-энтропия), меняются только данные: вместо сырого интернета — аккуратные демонстрации того, как надо отвечать.

Что меняется в модели

Принципиально новых знаний SFT почти не добавляет — основное модель усвоила на предобучении. SFT перенастраивает поведение: смещает распределение так, что после запроса наиболее вероятным продолжением становится полезный ответ в нужном формате. Образно: предобучение дало эрудицию, а SFT научило вежливо и по делу ею делиться.

ЭтапДанныеЧто даёт
Предобучениетриллионы токенов сырого текстазнания, язык, эрудиция
SFTтысячи–сотни тысяч пар «инструкция → ответ»умение отвечать и следовать формату

Почему важно качество примеров

Поскольку модель буквально подражает демонстрациям, их качество решает почти всё. Несколько тысяч отличных примеров полезнее миллиона посредственных: модель перенимает и стиль, и структуру, и тон образцовых ответов. Здесь работает принцип «лучше меньше, да лучше» — в отличие от предобучения, где главное объём.

Чего SFT ещё не даёт

После SFT модель уже похожа на ассистента, но у неё нет тонкого чувства, какой из двух правильных ответов лучше, и она может быть недостаточно осторожной. Доводят её до привычного нам поведения следующим этапом — выравниванием через обратную связь (RLHF), о котором следующий урок.

Итог

  • SFT превращает базовую модель в ассистента, дообучая на парах «инструкция → ответ».
  • Механизм тот же (предсказание токена), но данные — качественные демонстрации ответов.
  • SFT не столько добавляет знания, сколько перенастраивает поведение на «отвечать по делу».
  • Качество примеров критично; финальную полировку даёт следующий этап — RLHF.
Проверьте себя
1. Какую проблему решает SFT?
AУчит модель новым языкам с нуля
BПриучает базовую модель отвечать на инструкции, а не просто продолжать текст
CСжимает модель
DСтроит токенизатор
2. На чём дообучают модель при SFT?
AНа сыром тексте интернета
BНа качественных парах «инструкция → образцовый ответ», написанных людьми
CНа случайных токенах
DНа картинках
3. Что в основном меняет SFT в модели?
AДобавляет большую часть её знаний
BПеренастраивает поведение: после запроса вероятнее становится полезный ответ
CМеняет токенизатор
DУвеличивает контекстное окно
Поддержать проект