RLHF и выравнивание: почему модель вежливая

Финальный этап превращения модели в знакомого нам ассистента — выравнивание через человеческую обратную связь. Разберём идею RLHF без формул.

Выравнивание (alignment) — настройка модели так, чтобы её ответы были полезными, честными и безопасными, а не просто правдоподобными.

Чего не хватало после SFT

После SFT модель отвечает на инструкции, но у неё нет тонкого чувства, какой ответ лучше. На один вопрос есть много корректных ответов: один точнее, другой вежливее, третий безопаснее. Демонстрациями всё это не покроешь — написать идеальный ответ на каждый возможный запрос невозможно. Зато людям легко сравнить два ответа и сказать, какой лучше. На этом и строится RLHF.

RLHF по шагам (идея)

Собираем предпочтения. Модель генерирует несколько ответов на запрос, люди ранжируют их от лучшего к худшему.
Обучаем reward-модель. На этих сравнениях тренируют отдельную модель-«судью», которая по ответу выдаёт число — оценку «насколько он хорош для человека».
Дообучаем LLM под оценку. Основную модель методами обучения с подкреплением подталкивают генерировать ответы, которые reward-модель оценивает выше.

В итоге модель учится не просто на «правильных» ответах, а на человеческих предпочтениях — что люди считают полезным, уместным и безопасным. Существуют и более простые варианты этой идеи (например, DPO), но суть та же: обучение по сравнениям ответов.

Почему модель стала «вежливой»

Та самая вежливость, осторожность и готовность отказать в опасной просьбе — прямое следствие RLHF. Люди в среднем выше оценивали ответы вежливые, честные и безопасные, reward-модель это закрепила, и основная модель сместилась в их сторону. «Характер» ассистента — не магия, а отражение того, какие ответы предпочитали разметчики.

Три цели выравнивания

Полезность	отвечать по делу, решать задачу пользователя
Честность	не выдумывать, признавать незнание, не вводить в заблуждение
Безопасность	отказывать в явно вредных просьбах

Эти цели иногда конфликтуют: максимально «полезный» ответ на опасный вопрос небезопасен. Выравнивание ищет баланс — отсюда и отказы, и оговорки в ответах.

Ограничения выравнивания

RLHF — мощный, но несовершенный инструмент. Модель учится казаться полезной и честной по меркам разметчиков, а не обладает истинными ценностями. Поэтому возможны «угодливость» (соглашаться с пользователем, даже когда он не прав), обходы ограничений хитрыми запросами и остаточные предвзятости из данных. Выравнивание уменьшает проблемы, но не устраняет их полностью — и это важно понимать, доверяя ответам.

Итог

Выравнивание делает ответы полезными, честными и безопасными, а не просто правдоподобными.
RLHF учит модель на сравнениях ответов: люди ранжируют, reward-модель оценивает, LLM дообучают под оценку.
Вежливость и осторожность ассистента — отражение человеческих предпочтений, а не «характер».
Выравнивание несовершенно: возможны угодливость, обходы и предвзятости.