Виды генеративного AI: текст, картинки, звук, видео

Урок показывает карту генеративного AI: какие бывают модальности и какие модели за них отвечают.

Модальность — тип данных, с которым работает модель: текст, изображение, звук или видео. У каждой модальности своя «физика» и свои приёмы генерации.

Текст: большие языковые модели

Самые известные генеративные модели сегодня — это LLM (ChatGPT и подобные). Они генерируют текст по одному токену за раз, предсказывая следующее слово. Этому посвящён наш отдельный курс «LLM». Текст удобен тем, что он одномерный и дискретный: слова идут друг за другом, словарь конечен.

Изображения: главная тема курса

Картинка — это двумерная сетка пикселей, и пикселей очень много (даже скромные 512×512 — это больше 260 тысяч точек, каждая с тремя числами цвета). Генерировать их «по одному», как слова, слишком долго и неустойчиво. Поэтому для изображений победил другой подход — диффузия, которой и посвящён весь курс.

Звук и видео

Звук — это одномерный сигнал во времени, но с очень высокой частотой (десятки тысяч значений в секунду). Видео — это последовательность кадров плюс требование, чтобы соседние кадры были согласованы. Это самая тяжёлая модальность: к пространству добавляется время, и объекты не должны «дёргаться» между кадрами.

Модальность	Структура данных	Типичный подход
Текст	последовательность токенов	трансформер (LLM)
Изображение	2D-сетка пикселей	диффузия
Аудио	1D-сигнал во времени	диффузия / трансформер
Видео	кадры × время	диффузия с учётом времени

Как работает под капотом

Несмотря на разные данные, все генеративные модели решают одну задачу: выучить распределение реальных примеров и сэмплировать из него. Различаются способы. Для дискретных последовательностей (текст) удобно предсказывать «следующий элемент». Для непрерывных, плотных данных (пиксели, звук) удобнее постепенно превращать шум в сигнал — это и есть диффузия. Современные мультимодальные системы часто комбинируют подходы: текстовый энкодер задаёт смысл, а диффузия рисует пиксели.

Частые ошибки

Считать, что «нейросеть для текста» нарисует картинку. Архитектуры разные: LLM выдаёт текст, диффузионная модель — пиксели. Их объединяют в систему, но это разные компоненты.
Думать, что видео — это «просто много картинок». Главная трудность видео — временная согласованность, а не количество кадров.

Мультимодальные системы

На практике современные продукты редко бывают «чисто текстовыми» или «чисто графическими». Системы, которые и отвечают текстом, и рисуют картинки, склеены из нескольких генеративных моделей. Текстовая часть понимает запрос и ведёт диалог, графическая — рисует по уточнённому описанию. Между ними стоит «клей» — например, текстовый энкодер, который переводит человеческую формулировку в условие для генератора изображений.

Важно не путать совместную работу моделей с одной всемогущей сетью. Каждая часть обучена под свою задачу и имеет свои ограничения. Поэтому, когда картинка получается не такой, как описано, причина может быть и в том, как текст понят (текстовая часть), и в том, как он нарисован (графическая часть). Умение разделять эти источники ошибок очень помогает в практической работе и отладке промптов.

Итог

Генеративный AI делится по модальностям: текст, изображения, звук, видео.
Для текста доминируют трансформеры (LLM), для изображений и звука — диффузия.
Видео — сложнее всего из-за требования согласованности кадров во времени.