Предобучение: предсказание следующего токена на всём интернете

С чего начинается любая LLM — с предобучения. Разберём, как модель учится на сыром тексте без единой ручной метки.

Предобучение (pre-training) — обучение модели предсказывать следующий токен на огромном корпусе текстов; разметка не нужна, ведь «правильный ответ» — это просто следующее слово в тексте.

Self-supervised: разметка уже в тексте

Обычное машинное обучение требует размеченных данных: картинка → «кошка». Для LLM это было бы нереально — никто не разметит триллионы слов. Гениальность подхода в том, что текст размечает сам себя. Берём любое предложение, прячем продолжение и просим модель его угадать. Правильный ответ известен — это следующее слово в исходном тексте. Такой приём называют self-supervised (самообучение с учителем без ручной разметки).

Как выглядит один шаг обучения

Взять кусок текста из корпуса.
Для каждой позиции попросить модель предсказать следующий токен (видя только левый контекст — спасибо причинной маске).
Сравнить предсказание с настоящим следующим токеном.
Чуть подправить веса, чтобы в следующий раз вероятность правильного токена была выше.

Повторить это триллионы раз. Каждое крошечное исправление почти ничего не значит, но в сумме они выстраивают в модели богатое представление языка и мира.

Откуда сигнал и почему «бесплатно»

Поскольку правильный ответ всегда под рукой (следующий токен текста), модель получает обучающий сигнал из любого текста — статей, книг, форумов, кода. Не нужны разметчики. Это и позволило масштабировать обучение до размеров интернета. Качество данных при этом критично: текст чистят, дедуплицируют, фильтруют мусор — «мусор на входе, мусор на выходе» работает и здесь.

Что модель выучивает попутно

Чтобы хорошо угадывать продолжение в самых разных текстах, модели приходится неявно освоить многое:

Текст-подсказка	Что приходится знать
«Столица Франции — …»	факт о мире
«Кошки любят … (молоко/спать)»	здравый смысл
«def add(a, b): return …»	синтаксис кода
«2 + 2 = …»	простую арифметику (шаблонно)

Никто не учил модель этим фактам напрямую — она извлекла их, оптимизируя единственную цель: точнее предсказывать следующий токен.

Результат предобучения

На выходе — базовая модель (base model). Она прекрасно продолжает текст и хранит уйму знаний, но ещё не умеет вести диалог и следовать инструкциям. Это сырьё, из которого дальнейшие этапы (SFT, RLHF) лепят полезного ассистента. Но именно предобучение — самый дорогой и фундаментальный этап: здесь модель и набирает свои основные знания.

Итог

Предобучение — предсказание следующего токена на гигантском корпусе без ручной разметки.
Это self-supervised: правильный ответ — это просто следующее слово в тексте.
Чтобы хорошо предсказывать, модель попутно усваивает факты, грамматику, код, здравый смысл.
Итог — базовая модель: знающая, но ещё не умеющая вести диалог.