Actor-critic: обзор

Урок даёт обзор actor-critic — гибрида, объединяющего политику и функцию ценности.

Actor-critic — это семейство методов с двумя компонентами: актёр (actor) учит политику и выбирает действия, а критик (critic) оценивает их через функцию ценности и подсказывает актёру, насколько действие было хорошим.

Зачем объединять два подхода

В прошлом уроке мы увидели проблему REINFORCE: чтобы оценить, хорошим ли было действие, он ждёт конца эпизода и использует шумный возврат G. Это медленно и нестабильно. Value-методы (TD) умеют оценивать на каждом шаге, но напрямую не дают стохастической политики для непрерывных действий. Actor-critic берёт лучшее: актёр — это policy gradient, критик — это TD-оценка ценности, которая заменяет шумный возврат стабильной оценкой.

Разделение ролей

Компонент	Что делает	Из какого мира
Актёр (actor)	выбирает действия по политике pi	policy gradient
Критик (critic)	оценивает действия через V или Q	TD-обучение

Как они учатся вместе

На каждом шаге происходит маленький диалог. Актёр предлагает действие. Среда даёт награду и новое состояние. Критик считает TD-ошибку (как в уроке про TD): был ли результат лучше ожидаемого. Эта TD-ошибка играет роль «преимущества» (advantage) — она говорит актёру: «это действие оказалось лучше среднего, повышай его вероятность» или наоборот. Одновременно критик уточняет собственную оценку ценности. Так обе сети улучшаются на каждом шаге, без ожидания конца эпизода.

Один шаг actor-critic:
  действие a ~ pi(actor)         (актёр предложил)
  r, s' = среда                  (награда и новое состояние)
  delta = r + gamma*V(s') - V(s) (критик считает TD-ошибку = преимущество)
  обновить актёра: повысить pi(a|s) пропорционально delta
  обновить критика: V(s) += alpha * delta

Знакомая TD-ошибка delta здесь выполняет двойную работу: учит критика (как в TD-обучении) и направляет актёра (как baseline-преимущество в policy gradient).

Как работает под капотом

Современные алгоритмы (A2C, A3C, PPO, SAC) — это развитые actor-critic методы. Они добавляют параллельный сбор опыта, ограничение на размер шага политики (чтобы не «сломать» её одним обновлением) и энтропийные бонусы для исследования. Именно семейство actor-critic, особенно PPO, стало рабочей лошадкой современного RL — от робототехники до RLHF в языковых моделях. Реализация требует нейросетевых библиотек и здесь не запускается.

Частые ошибки

Рассинхрон актёра и критика. Если критик плохо обучен, он даёт неверные подсказки, и актёр учится не тому. Их скорости обучения нужно балансировать.
Слишком большой шаг политики. Резкое обновление актёра может разрушить уже найденное поведение; PPO специально это ограничивает.
Считать actor-critic «просто REINFORCE». Ключевое отличие — критик заменяет шумный возврат на стабильную TD-оценку, резко снижая дисперсию.

Итоги

Actor-critic объединяет policy gradient (актёр) и TD-оценку ценности (критик).
TD-ошибка критика служит сигналом преимущества для обновления актёра, снижая дисперсию.
Развитые версии (PPO, SAC, A3C) — основа современного практического RL.