Виды генеративного AI: текст, картинки, звук, видео
Урок показывает карту генеративного AI: какие бывают модальности и какие модели за них отвечают.
Модальность — тип данных, с которым работает модель: текст, изображение, звук или видео. У каждой модальности своя «физика» и свои приёмы генерации.
Текст: большие языковые модели
Самые известные генеративные модели сегодня — это LLM (ChatGPT и подобные). Они генерируют текст по одному токену за раз, предсказывая следующее слово. Этому посвящён наш отдельный курс «LLM». Текст удобен тем, что он одномерный и дискретный: слова идут друг за другом, словарь конечен.
Изображения: главная тема курса
Картинка — это двумерная сетка пикселей, и пикселей очень много (даже скромные 512×512 — это больше 260 тысяч точек, каждая с тремя числами цвета). Генерировать их «по одному», как слова, слишком долго и неустойчиво. Поэтому для изображений победил другой подход — диффузия, которой и посвящён весь курс.
Звук и видео
Звук — это одномерный сигнал во времени, но с очень высокой частотой (десятки тысяч значений в секунду). Видео — это последовательность кадров плюс требование, чтобы соседние кадры были согласованы. Это самая тяжёлая модальность: к пространству добавляется время, и объекты не должны «дёргаться» между кадрами.
| Модальность | Структура данных | Типичный подход |
| Текст | последовательность токенов | трансформер (LLM) |
| Изображение | 2D-сетка пикселей | диффузия |
| Аудио | 1D-сигнал во времени | диффузия / трансформер |
| Видео | кадры × время | диффузия с учётом времени |
Как работает под капотом
Несмотря на разные данные, все генеративные модели решают одну задачу: выучить распределение реальных примеров и сэмплировать из него. Различаются способы. Для дискретных последовательностей (текст) удобно предсказывать «следующий элемент». Для непрерывных, плотных данных (пиксели, звук) удобнее постепенно превращать шум в сигнал — это и есть диффузия. Современные мультимодальные системы часто комбинируют подходы: текстовый энкодер задаёт смысл, а диффузия рисует пиксели.
Частые ошибки
- Считать, что «нейросеть для текста» нарисует картинку. Архитектуры разные: LLM выдаёт текст, диффузионная модель — пиксели. Их объединяют в систему, но это разные компоненты.
- Думать, что видео — это «просто много картинок». Главная трудность видео — временная согласованность, а не количество кадров.
Мультимодальные системы
На практике современные продукты редко бывают «чисто текстовыми» или «чисто графическими». Системы, которые и отвечают текстом, и рисуют картинки, склеены из нескольких генеративных моделей. Текстовая часть понимает запрос и ведёт диалог, графическая — рисует по уточнённому описанию. Между ними стоит «клей» — например, текстовый энкодер, который переводит человеческую формулировку в условие для генератора изображений.
Важно не путать совместную работу моделей с одной всемогущей сетью. Каждая часть обучена под свою задачу и имеет свои ограничения. Поэтому, когда картинка получается не такой, как описано, причина может быть и в том, как текст понят (текстовая часть), и в том, как он нарисован (графическая часть). Умение разделять эти источники ошибок очень помогает в практической работе и отладке промптов.
Итог
- Генеративный AI делится по модальностям: текст, изображения, звук, видео.
- Для текста доминируют трансформеры (LLM), для изображений и звука — диффузия.
- Видео — сложнее всего из-за требования согласованности кадров во времени.