Что такое трансформер — архитектура, на которой стоит ChatGPT

В 2017-м вышла статья с дерзким названием «Внимание — это всё, что нужно», и через несколько лет на этой идее держался весь современный ИИ.

Трансформер — это конструкция нейросети, в которой много одинаковых слоёв по очереди «перемешивают» смысл слов через механизм внимания, пока не получится глубокое понимание текста.

Откуда взялось название

Слово «трансформер» пугает, но за ним стоит простая мысль. Это название архитектуры — то есть схемы, как соединены детали нейросети. До трансформеров тексты обрабатывали сетями, которые читали слова строго по очереди и страдали от того, что забывали начало длинных фраз и плохо распараллеливались. В 2017 году исследователи предложили выкинуть последовательное чтение и построить всё на одном механизме — внимании. Статья так и называлась: «Attention Is All You Need».

Конвейер из одинаковых слоёв

Главная идея трансформера — это стопка одинаковых слоёв, поставленных друг на друга. Текст в виде токенов входит снизу, проходит слой за слоем и на каждом обогащается смыслом. Представьте конвейер мастеров: первый придаёт заготовке грубую форму, второй уточняет, третий шлифует. К концу из набора разрозненных слов получается насыщенное контекстом представление.

Каждый слой состоит из двух главных частей, идущих друг за другом:

Внимание. Слова переглядываются между собой и подтягивают смысл нужных соседей. Местоимение находит, к кому относится; глагол — кто его совершает.
Маленькая обрабатывающая сеть. После того как слово собрало контекст, его прогоняют через небольшой персональный «мыслительный блок», который дополнительно преобразует накопленный смысл.

Эти два шага повторяются десятки раз. В больших моделях слоёв бывает несколько десятков, и именно глубина даёт модели способность улавливать всё более сложные и абстрактные связи.

Два хитрых помощника

Чтобы такая глубокая стопка вообще обучалась, в неё встроили два приёма. Первый — остаточные связи: вход каждого блока «прокидывают» в обход напрямую к его выходу. Это как страховочный трос: даже если блок пока работает плохо, исходная информация не теряется. Второй — нормализация: после каждого шага числа приводят к стабильному масштабу, чтобы сигнал не взрывался и не затухал по дороге сквозь десятки слоёв.

Почему «он не знает порядок слов»

У внимания есть забавная слабость: само по себе оно смотрит на все слова разом и не различает, что идёт раньше, а что позже. Для него «собака укусила человека» и «человека укусила собака» поначалу выглядят как один и тот же набор слов. Чтобы вернуть порядок, к каждому токену добавляют позиционную метку — специальную добавку, кодирующую «я на третьем месте». Так модель снова понимает последовательность.

Почему трансформер победил

Преимуществ оказалось сразу несколько, и вместе они выстрелили.

Свойство	Что это дало
Параллельность	Можно обучать на огромных данных и тысячах видеокарт сразу
Прямые дальние связи	Длинные тексты не «забываются»
Универсальность	Та же схема годится для текста, кода, картинок, звука
Масштабируемость	Больше слоёв и данных — заметно умнее модель

Последний пункт оказался ключевым. Выяснилось удивительное: если просто увеличивать трансформер и кормить его всё большим объёмом текста, качество растёт предсказуемо и долго не упирается в потолок. Именно поэтому за «GPT-2» пришёл «GPT-3», потом ещё крупнее — это во многом одна и та же архитектура, просто разного масштаба.

Запомните: трансформер — не магия, а удачная инженерная схема. Стопка слоёв, в каждом внимание и обработка, плюс пара приёмов для устойчивости. Из этого скромного рецепта выросли все знакомые вам нейросети.