Как нейросеть рисует: диффузия из шума простыми словами

Модель не рисует картинку с нуля — она вытёсывает её из шума, как скульптор убирает лишнее из глыбы.

Генерация изображения — это не «придумать и нарисовать», а «убрать шум так, чтобы под ним проступило именно то, что просили».

Странная идея: учиться портить, чтобы научиться создавать

Диффузионные модели рождаются из контринтуитивного хода. Берут настоящую фотографию и шаг за шагом подмешивают в неё случайный шум — чуть-чуть, потом ещё, и так десятки раз, пока от снимка не останется ровная «снежная» каша, как на сломанном телевизоре. Это легко: портить картинку умеет каждый.

А теперь главный вопрос: что, если научить нейросеть делать обратный шаг? Не «добавь шум», а «по зашумлённой картинке угадай, какой шум сюда подмешали, и убери его». По одному маленькому шагу за раз.

От снега к изображению

Если модель умеет уверенно делать один шаг очистки, картинку можно собрать буквально из ничего. Алгоритм такой:

Берём чистый случайный шум — никакого скрытого рисунка в нём нет.
Просим модель: «чуть-чуть очисти это».
Получаем самую размытую тень будущей картинки.
Снова очищаем. И снова. Десятки раз.

С каждым шагом из тумана проступают контуры, потом формы, потом детали и текстуры. Кот-астронавт не был спрятан в исходном шуме — модель выдумывает его по дороге, на каждом шаге решая, какой именно шум стоит убрать, чтобы результат стал чуть осмысленнее.

Почему именно много маленьких шагов

Угадать всю картинку из чистого шума одним прыжком слишком сложно — слишком много вариантов. А вот сделать крошечный шаг «стало чуть менее шумно» — посильная задача. Сложное превращение разбивают на десятки простых: классический инженерный приём, который и делает диффузию устойчивой.

Откуда модель знает, ЧТО рисовать

Пока что мы получили бы случайную картинку. Чтобы вышел именно кот-астронавт, текстовый запрос превращают в числовой вектор смысла и подмешивают в каждый шаг очистки. Теперь модель убирает шум не абы как, а так, чтобы результат всё сильнее походил на описание. Промпт работает как направляющая рука: «вычищай в сторону кота, акварели и невесомости».

Поэтому слова в запросе так влияют на итог. Добавил «драматичный закат» — и подсказка тянет очистку к тёплым тонам и длинным теням на каждом из десятков шагов.

Почему руки даются с трудом

Модель не понимает анатомию — она статистически усвоила, как выглядят руки на миллионах фото. Но пальцев бывает разное число в разных позах, они перекрывают друг друга, и «в среднем по картинкам» рука размазана. Отсюда классические шесть пальцев: модель воспроизводит правдоподобную текстуру, не имея понятия «пальцев ровно пять». Она имитирует внешний вид, а не устройство мира.

Что из этого следует

Запомнить стоит две вещи. Первое: картинка собирается итеративно, шумоподавлением, а не штрихами по холсту — поэтому генерация занимает секунды и заметные ресурсы. Второе: модель опирается на статистику миллионов изображений, а не на понимание. Она потрясающе имитирует то, что видела, и спотыкается там, где нужна логика, а не похожесть. Именно поэтому она гениальный художник и ненадёжный счетовод пальцев одновременно.