Как нейросеть пишет ответ: по одному слову за раз
ChatGPT кажется собеседником, который обдумал ответ целиком и выдал его. На самом деле он работает как самый увлечённый в мире игрок в «угадай следующее слово»: предсказывает один токен, дописывает его и начинает заново. Снова и снова.
Длинный связный ответ нейросеть строит не целиком — она угадывает одно слово, приписывает его и тут же угадывает следующее.
В основе любой языковой модели лежит одна-единственная операция: по уже имеющемуся тексту предсказать самый вероятный следующий токен. Всё остальное — повторение этого шага.
Вся суть — в одном шаге
Можно сколько угодно усложнять описание ИИ, но фундамент прост. Модель умеет делать ровно одно: смотреть на текст и оценивать, каким токеном он скорее всего продолжится. Вы дали «Солнце встаёт на» — модель прикидывает вероятности продолжений: «востоке» очень вероятно, «западе» почти невероятно, «кухне» — абсурд. Это её единственный навык.
Но как из одного навыка рождаются абзацы? Через повторение. Модель предсказывает токен, дописывает его в конец текста и запускает себя заново — теперь уже с чуть более длинной строкой. Так слово цепляется за слово.
Авторегрессия — звучит сложно, делается просто
Этот приём называют красивым словом авторегрессия, но смысл бытовой: «дописываю к самому себе». Разберём по шагам, как из подсказки «Жили-были» вырастает сказка:
- Вход: «Жили-были». Модель предсказывает следующий токен — допустим, «дед».
- Вход уже «Жили-были дед». Модель предсказывает «и».
- Вход «Жили-были дед и». Предсказывает «баба».
- …и так до тех пор, пока не выпадет специальный сигнал «конец ответа».
Заметьте: на каждом шаге модель заново перечитывает всё, что насочиняла раньше. Поэтому она держит связность — новое слово выбирается с оглядкой на всё предыдущее.
Вот почему ответ «печатается»
Теперь понятно, отчего ответ в чате появляется не мгновенно, а наплывает словами, будто кто-то печатает вживую. Это не анимация для красоты. Вы буквально видите процесс: каждый токен рождается отдельным шагом, и его сразу показывают, не дожидаясь конца. Модель и правда не знает, чем закончит, пока туда не дойдёт.
Не всегда самое вероятное
Тонкость: если всегда брать строго самый вероятный токен, текст выходит безжизненным и зацикленным — модель скатывается в повторы и штампы. Поэтому выбор делают с долей случайности: модель смотрит на вероятности и иногда берёт не топовый вариант, а один из правдоподобных. Степенью этой случайности управляет отдельный параметр, но суть в том, что между шагами есть элемент броска кубика. Оттого один и тот же вопрос дважды даёт разные ответы.
Что из этого следует
Понимание «по одному слову» объясняет сразу несколько особенностей.
| Наблюдение | Почему так |
| Длинный ответ дольше короткого | Каждый токен — отдельный проход модели |
| Ответ появляется постепенно | Токены показывают по мере рождения |
| Модель не «правит» сказанное | Написанное уже ушло в историю, шаг назад невозможен |
Последнее особенно важно: модель не может вернуться и переписать начало фразы. Если она пошла по неудачному пути, она будет честно достраивать ответ на этом фундаменте. Вот почему иногда видно, как бот сам себя «выправляет» по ходу — он не стирает ошибку, а лишь добавляет к ней оговорку.
Запомните главное: за фасадом умного собеседника — простой и упрямый цикл «угадай следующее слово, припиши, повтори». Магия не в одном шаге, а в том, что таких шагов миллиарды и каждый опирается на колоссальный опыт чтения.