← Все вопросы

Как нейросеть рисует картинки по тексту? Объясните диффузию на пальцах

Задан 4 месяца назад1.1к просмотров1 ответ
9

Пишешь «кот в шляпе космонавта» — и нейросеть рисует картинку с нуля. Как это вообще возможно? Где она берёт изображение? Слышал слово «диффузия», но не понял, что это.

1 ответ

12
✓ Принятый ответ — помог автору

Представь, что у тебя есть чёткая фотография, и ты постепенно добавляешь в неё шум — точки, помехи — пока она не превратится в полную «кашу», как на старом телевизоре без сигнала.

Нейросеть учат делать обратное: брать кашу из шума и шаг за шагом убирать его, восстанавливая осмысленную картинку. На обучении ей показали миллионы картинок с подписями и научили распознавать, как из шума «проявить» именно то, что описано в тексте.

Когда ты пишешь «кот в шляпе космонавта», происходит так:

  1. Берётся случайный шум (по сути — белый хаос).
  2. Сеть много раз понемногу его «расчищает», на каждом шаге двигая картинку ближе к твоему описанию.
  3. Через десятки шагов из хаоса проявляется кот в шлеме.

Это и называется диффузия — постепенное превращение шума в изображение. Картинку она не берёт готовой и не склеивает из кусков чужих — она генерирует новую, опираясь на закономерности, которым научилась.

Ваш ответ

Войдите, чтобы ответить на вопрос.