Как нейросеть рисует картинки по тексту? Объясните диффузию на пальцах

Задан 4 месяца назад1.1к просмотров1 ответ

Пишешь «кот в шляпе космонавта» — и нейросеть рисует картинку с нуля. Как это вообще возможно? Где она берёт изображение? Слышал слово «диффузия», но не понял, что это.

Яна Белова 🥚 Яйцо

спросил 4 месяца назад

1 ответ

✓ Принятый ответ — помог автору

Представь, что у тебя есть чёткая фотография, и ты постепенно добавляешь в неё шум — точки, помехи — пока она не превратится в полную «кашу», как на старом телевизоре без сигнала.

Нейросеть учат делать обратное: брать кашу из шума и шаг за шагом убирать его, восстанавливая осмысленную картинку. На обучении ей показали миллионы картинок с подписями и научили распознавать, как из шума «проявить» именно то, что описано в тексте.

Когда ты пишешь «кот в шляпе космонавта», происходит так:

Берётся случайный шум (по сути — белый хаос).
Сеть много раз понемногу его «расчищает», на каждом шаге двигая картинку ближе к твоему описанию.
Через десятки шагов из хаоса проявляется кот в шлеме.

Это и называется диффузия — постепенное превращение шума в изображение. Картинку она не берёт готовой и не склеивает из кусков чужих — она генерирует новую, опираясь на закономерности, которым научилась.

Лев Герасимов 🥚 Яйцо

3 месяца назад

Ваш ответ

Войдите, чтобы ответить на вопрос.