img2img: картинка как отправная точка

Урок про режим, где стартом служит не чистый шум, а ваша готовая картинка.

img2img — генерация, в которой стартовый латент берётся из исходной картинки (а не из чистого шума) и частично зашумляется перед расшумлением по промпту.

Идея: не с нуля, а с эскиза

В text-to-image мы стартовали с чистого шума. В img2img старт — это ваше изображение: фотография, набросок, предыдущая генерация. Его кодируют VAE-энкодером в латент, добавляют шум (но не до конца!) и затем расшумляют по новому промпту. Так структура исходника сохраняется, а стиль и детали меняются.

text-to-image:  чистый шум          -> расшумление -> картинка
img2img:        ваша картинка
                -> энкодер VAE -> латент
                -> частичный шум   -> расшумление -> новая картинка

Главная ручка: denoising strength

Ключевой параметр img2img — denoising strength (сила зашумления), от 0 до 1. Он решает, насколько сильно зашумить исходник перед расшумлением:

StrengthРезультат
0.2–0.3лёгкая правка, почти оригинал
0.5–0.6заметная переработка, структура сохранена
0.8–1.0почти как text-to-image, от исходника мало что осталось

Как работает под капотом

Denoising strength буквально задаёт, с какого шага диффузии стартовать. При strength = 0.5 мы как бы перематываем прямой процесс до середины: исходная композиция ещё «просвечивает» сквозь шум, и расшумление достраивает остальное по промпту. При strength = 1.0 шум полный — исходник теряется, остаётся только его размер. Поэтому img2img отлично подходит для превращения наброска в детальную картинку или для смены стиля с сохранением позы.

Частые ошибки

  • Ставить strength 0.9 и удивляться, что исходник «пропал». При высокой силе остаётся только размер кадра.
  • Ждать сохранения мелких деталей при strength 0.7. Чем выше сила, тем меньше деталей исходника уцелеет.
  • Забывать про промпт. img2img всё равно слушает промпт; пустой промпт — слабое управление.

Типичные сценарии img2img

img2img незаменим там, где у вас уже есть отправная точка. Самые частые сценарии: превратить грубый набросок в детальную иллюстрацию (рисуете композицию мышкой за минуту, модель доводит); сменить стиль фотографии, сохранив позу и композицию; улучшить или переработать предыдущую генерацию, которая «почти получилась». Во всех случаях исходник задаёт каркас, а промпт и strength решают, насколько сильно его переосмыслить.

Практический приём — лесенка по strength. Начните с низкого значения (0.3) и смотрите, достаточно ли изменений; если мало — поднимайте по 0.1. Так вы найдёте минимальную силу, которая решает задачу, и максимально сохраните то хорошее, что уже есть в исходнике. Прыгать сразу на 0.9 рискованно: вы потеряете именно то, ради чего стартовали с готовой картинки, а не с шума.

Итог

  • img2img стартует с вашей картинки: её кодируют в латент, частично зашумляют и расшумляют по промпту.
  • denoising strength управляет балансом «сохранить исходник ↔ переделать заново».
  • Низкая сила — лёгкая правка, высокая — почти text-to-image.
Проверьте себя
1. Чем старт img2img отличается от text-to-image?
AНичем
BСтартом служит латент вашей картинки, частично зашумлённый, а не чистый шум
Cimg2img не использует U-Net
Dimg2img не нужен промпт
2. Что задаёт параметр denoising strength?
AРазмер итоговой картинки
BНасколько сильно зашумляется исходник, то есть степень его переработки
CЧисло каналов цвета
DЯзык промпта