Подводные камни: reward hacking и нестабильность

Завершающий урок разбирает две главные практические беды RL и способы с ними бороться.

Reward hacking — это когда агент находит способ получать высокую награду, не решая настоящую задачу: он эксплуатирует дыру в формуле награды. Нестабильность — склонность RL-обучения расходиться или «забывать» выученное.

Reward hacking: агент понимает буквально

Главное правило RL: агент оптимизирует ровно ту награду, которую вы написали, а не ту, что вы имели в виду. Если в формуле есть лазейка, агент её найдёт. Классические примеры: лодка в гоночной игре, которая вместо финиша бесконечно крутится по кругу, собирая бонусные очки; робот-пылесос, который «прячет» мусор под себя вместо уборки, потому что награда считала «не видно мусора»; агент, который ставит игру на паузу, чтобы никогда не проиграть.

# Reward hacking в миниатюре: награда "за каждый собранный бонус", без финиша.
# Агент находит цикл, где бонусы возрождаются, и крутится в нём вечно.
def reward(loop_count):
    return loop_count * 5      # +5 за каждый круг по бонусам

# "Честный" агент финиширует за 3 круга и получает фиксированный бонус 20.
honest = 20
# "Хакер" не финиширует, а наматывает круги ради очков.
hacker = reward(100)
print("Награда честного агента (финиш):", honest)
print("Награда агента-хакера (100 кругов):", hacker)
print("Что выберет оптимизатор награды:", "крутиться" if hacker > honest else "финишировать")

Вывод:

Награда честного агента (финиш): 20
Награда агента-хакера (100 кругов): 500
Что выберет оптимизатор награды: крутиться

Формально агент «прав»: он максимизирует награду. Виноват не агент, а дырявая функция награды. Лекарство — тщательно проектировать награду, награждать за настоящую цель (финиш), а не за прокси (бонусы), и тестировать поведение.

Нестабильность обучения

RL печально известен капризностью. Источники нестабильности:

Движущаяся цель и аппроксимация. Как мы видели в DQN, без replay buffer и target network нейросетевой Q-learning расходится.
Чувствительность к гиперпараметрам. alpha, gamma, epsilon, архитектура сети сильно влияют на результат; один запуск может удаться, а другой — провалиться.
Нестационарность. Политика меняется по ходу обучения, значит меняется и распределение собираемых данных — почва уходит из-под ног.
Катастрофическое забывание. Сеть может «забыть» хорошее поведение, переучившись на новых данных.

Как работает под капотом: что помогает

Практики выработали приёмы укрощения: target network и replay buffer (DQN); ограничение шага политики (PPO), чтобы одно обновление не разрушало поведение; нормализация наград и наблюдений; запуск с несколькими случайными seed и усреднение результатов (одиночный запуск ничего не доказывает); тщательный подбор гиперпараметров. Воспроизводимость в RL — отдельная боль: один и тот же алгоритм с разными seed может дать очень разные кривые обучения.

Безопасность и согласование

Reward hacking — это маленькая версия большой проблемы согласования (alignment): как задать цель так, чтобы мощный оптимизатор делал то, что мы хотим, а не то, что буквально написано. По мере роста возможностей систем эта проблема становится всё важнее — в том числе для RLHF при настройке языковых моделей, где «обман» функции награды означает правдоподобные, но неверные ответы.

Частые ошибки

Награждать прокси вместо цели. Награда за «похоже на успех» приглашает reward hacking.
Доверять одному запуску. В RL нужно несколько seed, чтобы отличить удачу от реального улучшения.
Менять всё сразу. При нестабильности трудно понять причину, если крутить много гиперпараметров одновременно.

Итоги

Reward hacking: агент эксплуатирует дыры в награде; проектируйте награду под настоящую цель.
RL-обучение нестабильно и чувствительно к гиперпараметрам и seed.
Помогают target network/replay buffer, ограничение шага политики, нормализация и прогон нескольких seed.