Где применяют RL: игры, роботы, рекомендации

Урок показывает, в каких задачах RL действительно работает и почему именно там.

RL уместен там, где нужно принимать последовательность решений ради отложенной цели, а готовых «правильных ответов» нет.

Игры — главная витрина RL

Игры дали RL самые громкие победы, потому что в них есть чёткая среда, правила и счёт (награда).

Atari (DQN, 2013–2015). Один алгоритм научился играть в десятки старых игр, видя только пиксели экрана и счёт. Это показало, что RL+нейросети масштабируются.
AlphaGo / AlphaZero. Обыграли чемпионов в Go и шахматы, обучаясь игрой против себя, без человеческих партий в AlphaZero.
StarCraft, Dota 2. Агенты научились командной стратегии в реальном времени с огромным пространством действий.

Робототехника

Робот должен совершать длинные последовательности движений: схватить, переставить, удержать равновесие. Здесь нет «правильного» угла каждого сустава — есть цель (поднять предмет) и награда за приближение к ней. RL учит политику управления, часто сначала в симуляторе, а потом переносит на реального робота (проблема sim-to-real).

RLHF — настройка больших языковых моделей

Современные ассистенты дообучают методом RLHF (Reinforcement Learning from Human Feedback): люди оценивают ответы модели, на этих оценках обучают модель награды, а затем RL-алгоритм подстраивает языковую модель так, чтобы её ответы получали высокую награду. Это один из самых заметных промышленных примеров RL сегодня.

Как работает под капотом: общий шаблон

Во всех этих задачах одинаковая схема: определить состояние (кадр, расстановка, профиль пользователя), множество действий и функцию награды, отражающую настоящую цель. Дальше — собрать симулятор или собирать данные онлайн и запустить алгоритм обучения. Самое трудное почти всегда — придумать правильную награду.

# Игрушечная задача рекомендаций: 3 ролика с разной "удерживающей силой".
# Награда = минуты просмотра. Агент со временем находит лучший ролик.
import random
random.seed(0)
watch_time = [2.0, 5.0, 3.5]   # средние минуты просмотра по роликам
values = [0.0, 0.0, 0.0]
counts = [0, 0, 0]
for user in range(3000):
    if random.random() < 0.1:
        v = random.randint(0, 2)            # пробуем случайный ролик
    else:
        v = max(range(3), key=lambda i: values[i])
    reward = watch_time[v] + random.uniform(-1, 1)
    counts[v] += 1
    values[v] += (reward - values[v]) / counts[v]
print("Оценка удержания по роликам:", [round(x, 1) for x in values])
print("Лучший ролик:", max(range(3), key=lambda i: values[i]))

Вывод:

Оценка удержания по роликам: [2.0, 5.0, 3.5]
Лучший ролик: 1

Частые ошибки

Брать RL там, где хватит supervised. Если задача — классификация по размеченным данным, RL только усложнит жизнь.
Недооценивать стоимость симулятора. Большинство успехов RL — это в первую очередь хороший симулятор, в котором можно сделать миллионы попыток.
Игнорировать sim-to-real разрыв. Политика, идеальная в симуляторе, может ломаться на реальном роботе из-за трения, шумов и задержек.

Итоги

RL силён в задачах с последовательными решениями и отложенной целью.
Главные области: игры, робототехника, рекомендации, RLHF для LLM.
Ключ к успеху — хорошая среда/симулятор и правильно заданная награда.