Почему лента угадывает: как устроены рекомендации

Лента не читает мысли — она читает миллионы чужих кликов и находит людей, похожих на тебя.

Рекомендация — это не «что нравится тебе», а «что понравилось людям, которые ведут себя как ты».

Откуда сервис вообще знает, что предложить

Представь огромную таблицу: строки — пользователи, столбцы — видео или товары. На пересечении стоит оценка: посмотрел до конца, лайкнул, пролистал за две секунды. Эта таблица почти пустая — никто не видел и сотой доли контента. Задача рекомендательной системы — угадать значения в пустых клетках. Если мы предскажем, что в твоей пустой клетке напротив ролика про оригами будет высокая оценка, мы покажем тебе этот ролик.

Коллаборативная фильтрация: сила толпы

Самый старый и до сих пор рабочий приём называется коллаборативная фильтрация. Идея простая до гениальности: найди людей, чьи вкусы совпадают с твоими в прошлом, и предложи то, что им зашло, а ты ещё не видел.

Допустим, вы с незнакомцем из другого города оба досмотрели десять одинаковых разборов настольных игр и оба бросили один и тот же сериал на первой серии. Система делает вывод: ваши вкусы близки. Теперь, если он посмотрел одиннадцатое видео, которого ты не видел, — велик шанс, что оно понравится и тебе. Никто не описывал содержание этих видео вручную. Алгоритм работает только с поведением, и в этом его красота: он ловит вкус, который трудно выразить словами.

Почему это масштабируется

Сравнивать каждого с каждым напрямую невозможно — пользователей миллиарды. Поэтому таблицу «сжимают»: каждому человеку и каждому ролику сопоставляют короткий список чисел — эмбеддинг, вектор из, скажем, сотни координат. Эти числа подбирают так, чтобы предсказанная оценка была близка к скалярному произведению векторов пользователя и видео.

$$ \hat{r}_{ui} = \vec{p}_u \cdot \vec{q}_i $$

Геометрически это значит: похожие вкусы оказываются рядом в пространстве, а рекомендация сводится к поиску ближайших соседей. Вместо миллиардов сравнений — быстрый геометрический запрос.

Контент тоже считается

У чистой «силы толпы» есть слабое место — холодный старт. Новое видео никто не смотрел, чужих кликов нет, рекомендовать не от чего. Тут включается вторая половина системы — анализ самого контента: о чём ролик по названию, тегам, расшифровке речи, на какие уже знакомые видео он похож по картинке. Так свежий ролик получает первый шанс попасть в ленту тем, кому близка тема.

Что на самом деле оптимизирует лента

Важный и неприятный нюанс: система предсказывает не «что тебе полезно», а что удержит тебя подольше — потому что именно это её просили максимизировать. Если кликбейт и спорные ролики держат внимание лучше спокойных, алгоритм без всякого злого умысла начнёт продвигать именно их. Он не знает понятий «качество» или «правда» — он знает только сигнал, который мы выбрали целью.

Сигнал	Что значит для ленты
Досмотр до конца	Сильный плюс: контент удержал
Пролистал за 2 сек	Минус: не зацепило
Лайк и репост	Очень сильный плюс
Закрыл приложение после ролика	Тревожный сигнал

Как с этим жить

Понимание механики возвращает контроль. Лента — это зеркало твоего поведения, а не судьба. Досмотрел случайный ролик из любопытства — получишь его клонов на неделю. Хочешь сменить пластинку — осознанно лайкай другое, ставь дизлайки, чисти историю. Ты не пассажир алгоритма: ты тот, на чьих кликах он учится каждую секунду.