Как нейросеть рисует картинки по тексту? Объясните диффузию на пальцах
Пишешь «кот в шляпе космонавта» — и нейросеть рисует картинку с нуля. Как это вообще возможно? Где она берёт изображение? Слышал слово «диффузия», но не понял, что это.
1 ответ
Представь, что у тебя есть чёткая фотография, и ты постепенно добавляешь в неё шум — точки, помехи — пока она не превратится в полную «кашу», как на старом телевизоре без сигнала.
Нейросеть учат делать обратное: брать кашу из шума и шаг за шагом убирать его, восстанавливая осмысленную картинку. На обучении ей показали миллионы картинок с подписями и научили распознавать, как из шума «проявить» именно то, что описано в тексте.
Когда ты пишешь «кот в шляпе космонавта», происходит так:
- Берётся случайный шум (по сути — белый хаос).
- Сеть много раз понемногу его «расчищает», на каждом шаге двигая картинку ближе к твоему описанию.
- Через десятки шагов из хаоса проявляется кот в шлеме.
Это и называется диффузия — постепенное превращение шума в изображение. Картинку она не берёт готовой и не склеивает из кусков чужих — она генерирует новую, опираясь на закономерности, которым научилась.