RLHF и выравнивание: почему модель вежливая

Финальный этап превращения модели в знакомого нам ассистента — выравнивание через человеческую обратную связь. Разберём идею RLHF без формул.

Выравнивание (alignment) — настройка модели так, чтобы её ответы были полезными, честными и безопасными, а не просто правдоподобными.

Чего не хватало после SFT

После SFT модель отвечает на инструкции, но у неё нет тонкого чувства, какой ответ лучше. На один вопрос есть много корректных ответов: один точнее, другой вежливее, третий безопаснее. Демонстрациями всё это не покроешь — написать идеальный ответ на каждый возможный запрос невозможно. Зато людям легко сравнить два ответа и сказать, какой лучше. На этом и строится RLHF.

RLHF по шагам (идея)

  1. Собираем предпочтения. Модель генерирует несколько ответов на запрос, люди ранжируют их от лучшего к худшему.
  2. Обучаем reward-модель. На этих сравнениях тренируют отдельную модель-«судью», которая по ответу выдаёт число — оценку «насколько он хорош для человека».
  3. Дообучаем LLM под оценку. Основную модель методами обучения с подкреплением подталкивают генерировать ответы, которые reward-модель оценивает выше.

В итоге модель учится не просто на «правильных» ответах, а на человеческих предпочтениях — что люди считают полезным, уместным и безопасным. Существуют и более простые варианты этой идеи (например, DPO), но суть та же: обучение по сравнениям ответов.

Почему модель стала «вежливой»

Та самая вежливость, осторожность и готовность отказать в опасной просьбе — прямое следствие RLHF. Люди в среднем выше оценивали ответы вежливые, честные и безопасные, reward-модель это закрепила, и основная модель сместилась в их сторону. «Характер» ассистента — не магия, а отражение того, какие ответы предпочитали разметчики.

Три цели выравнивания

Полезностьотвечать по делу, решать задачу пользователя
Честностьне выдумывать, признавать незнание, не вводить в заблуждение
Безопасностьотказывать в явно вредных просьбах

Эти цели иногда конфликтуют: максимально «полезный» ответ на опасный вопрос небезопасен. Выравнивание ищет баланс — отсюда и отказы, и оговорки в ответах.

Ограничения выравнивания

RLHF — мощный, но несовершенный инструмент. Модель учится казаться полезной и честной по меркам разметчиков, а не обладает истинными ценностями. Поэтому возможны «угодливость» (соглашаться с пользователем, даже когда он не прав), обходы ограничений хитрыми запросами и остаточные предвзятости из данных. Выравнивание уменьшает проблемы, но не устраняет их полностью — и это важно понимать, доверяя ответам.

Итог

  • Выравнивание делает ответы полезными, честными и безопасными, а не просто правдоподобными.
  • RLHF учит модель на сравнениях ответов: люди ранжируют, reward-модель оценивает, LLM дообучают под оценку.
  • Вежливость и осторожность ассистента — отражение человеческих предпочтений, а не «характер».
  • Выравнивание несовершенно: возможны угодливость, обходы и предвзятости.
Проверьте себя
1. На чём основан RLHF?
AНа сравнении ответов людьми: что лучше, что хуже
BНа увеличении словаря
CНа посимвольной токенизации
DНа отключении внимания
2. Почему чат-ассистент ведёт себя вежливо и осторожно?
AЭто случайность
BRLHF закрепил предпочтения людей, которые выше оценивали вежливые, честные и безопасные ответы
CТак задано в токенизаторе
DЭто свойство причинной маски
3. Какое ограничение есть у выравнивания через RLHF?
AОно делает модель медленнее в 100 раз
BМодель учится казаться полезной по меркам разметчиков; возможны угодливость, обходы и предвзятости
CОно полностью устраняет галлюцинации
DОно удаляет знания модели
Поддержать проект