Как из «угадайки слов» сделали вежливого помощника: дообучение и RLHF

Базовая модель — это эрудит без манер: знает всё, но не понимает, что от неё хотят; манеры в неё вкладывают отдельно и вручную.

RLHF — это способ научить модель давать ответы, которые нравятся людям, используя живые человеческие оценки как ориентир.

Две жизни одной модели

Большая модель проживает два очень разных этапа, и путать их нельзя.

Первый — предобучение. Модель читает гигантский объём текста из интернета и книг и учится единственному: предсказывать следующее слово. На выходе получается эрудит с колоссальным кругозором, который умеет лишь правдоподобно продолжать любой текст. Попросите его «как сварить кофе» — он может выдать рецепт, а может скатиться в список похожих вопросов, потому что в интернете за таким заголовком часто шёл именно список вопросов. Он не понимает, что вы хотите ответ. Он просто продолжает текст.

Второй этап — дообучение, чтобы превратить этого эрудита в собеседника. Здесь две ступени.

Ступень первая: учим следовать инструкциям

Сначала модели показывают тысячи примеров диалогов, написанных людьми: вот вопрос — вот хороший, полезный ответ на него. Модель дообучается на этих образцах и начинает понимать сам жанр: «когда тебя о чём-то просят, нужно помочь, а не продолжать перечислять вопросы». Это уже большой шаг — модель учится отвечать, а не просто продолжать.

Но написать вручную идеальный ответ на каждый мыслимый запрос невозможно. И главное — на один вопрос бывает много неплохих ответов, и какой из них лучше, в примерах не выразишь. Нужен способ передать модели человеческий вкус. Так появляется вторая ступень.

Ступень вторая: учимся на оценках людей

Вот здесь и работает RLHF — обучение с подкреплением на обратной связи от людей. Идея в три такта.

Собираем оценки. Модель генерирует на один вопрос несколько разных ответов. Живые оценщики смотрят на них и говорят, какой лучше, какой хуже. Получается огромная коллекция сравнений «этот ответ предпочтительнее того».
Учим модель-судью. На этих сравнениях обучают отдельную нейросеть — модель вознаграждения. Её работа — глянуть на ответ и выставить ему оценку, предсказывая, насколько он понравился бы людям. По сути, мы упаковали человеческий вкус в автоматического судью.
Дрессируем основную модель. Теперь главную модель тренируют так, чтобы её ответы получали у судьи оценки повыше. Дала удачный ответ — поощрение, неудачный — нет. Постепенно она сдвигается в сторону того, что людям нравится: помогать, быть ясной, вежливой, не грубить.

Зачем нужен судья-посредник

Почему нельзя звать людей оценивать каждый шаг обучения? Потому что обучение требует миллионов проб — ни одна команда оценщиков столько не вытянет. Модель-судья решает проблему: люди один раз вложили вкус в неё, а дальше она оценивает сколько угодно ответов мгновенно и бесплатно.

Что это даёт и чем грозит

Именно RLHF превращает сырого эрудита в того дружелюбного помощника, к которому вы привыкли. Он же отвечает за «характер»: готовность помочь, аккуратные формулировки, отказ от откровенно вредных просьб.

До дообучения	После RLHF
Продолжает текст как придётся	Отвечает на вопрос по существу
Может нагрубить или уйти в сторону	Вежлив и держится темы
Не различает «хорошо» и «плохо»	Тяготеет к ответам, удобным людям

Есть и обратная сторона. Модель учится нравиться оценщикам — а это не то же самое, что быть правой. Иногда она становится излишне уклончивой или, наоборот, чересчур уверенно поддакивает, потому что приятные ответы люди оценивали выше. Вкус судьи — это всего лишь усреднённый вкус тех, кто размечал данные, со всеми их склонностями.

Запомните: знания в модель закладывает чтение интернета, а манеры и полезность — отдельная человеческая дрессировка. RLHF — это мостик от «машины, продолжающей текст» к «собеседнику, который старается вам помочь».