RLHF и выравнивание: почему модель вежливая
Финальный этап превращения модели в знакомого нам ассистента — выравнивание через человеческую обратную связь. Разберём идею RLHF без формул.
Выравнивание (alignment) — настройка модели так, чтобы её ответы были полезными, честными и безопасными, а не просто правдоподобными.
Чего не хватало после SFT
После SFT модель отвечает на инструкции, но у неё нет тонкого чувства, какой ответ лучше. На один вопрос есть много корректных ответов: один точнее, другой вежливее, третий безопаснее. Демонстрациями всё это не покроешь — написать идеальный ответ на каждый возможный запрос невозможно. Зато людям легко сравнить два ответа и сказать, какой лучше. На этом и строится RLHF.
RLHF по шагам (идея)
- Собираем предпочтения. Модель генерирует несколько ответов на запрос, люди ранжируют их от лучшего к худшему.
- Обучаем reward-модель. На этих сравнениях тренируют отдельную модель-«судью», которая по ответу выдаёт число — оценку «насколько он хорош для человека».
- Дообучаем LLM под оценку. Основную модель методами обучения с подкреплением подталкивают генерировать ответы, которые reward-модель оценивает выше.
В итоге модель учится не просто на «правильных» ответах, а на человеческих предпочтениях — что люди считают полезным, уместным и безопасным. Существуют и более простые варианты этой идеи (например, DPO), но суть та же: обучение по сравнениям ответов.
Почему модель стала «вежливой»
Та самая вежливость, осторожность и готовность отказать в опасной просьбе — прямое следствие RLHF. Люди в среднем выше оценивали ответы вежливые, честные и безопасные, reward-модель это закрепила, и основная модель сместилась в их сторону. «Характер» ассистента — не магия, а отражение того, какие ответы предпочитали разметчики.
Три цели выравнивания
| Полезность | отвечать по делу, решать задачу пользователя |
| Честность | не выдумывать, признавать незнание, не вводить в заблуждение |
| Безопасность | отказывать в явно вредных просьбах |
Эти цели иногда конфликтуют: максимально «полезный» ответ на опасный вопрос небезопасен. Выравнивание ищет баланс — отсюда и отказы, и оговорки в ответах.
Ограничения выравнивания
RLHF — мощный, но несовершенный инструмент. Модель учится казаться полезной и честной по меркам разметчиков, а не обладает истинными ценностями. Поэтому возможны «угодливость» (соглашаться с пользователем, даже когда он не прав), обходы ограничений хитрыми запросами и остаточные предвзятости из данных. Выравнивание уменьшает проблемы, но не устраняет их полностью — и это важно понимать, доверяя ответам.
Итог
- Выравнивание делает ответы полезными, честными и безопасными, а не просто правдоподобными.
- RLHF учит модель на сравнениях ответов: люди ранжируют, reward-модель оценивает, LLM дообучают под оценку.
- Вежливость и осторожность ассистента — отражение человеческих предпочтений, а не «характер».
- Выравнивание несовершенно: возможны угодливость, обходы и предвзятости.