img2img: картинка как отправная точка

Урок про режим, где стартом служит не чистый шум, а ваша готовая картинка.

img2img — генерация, в которой стартовый латент берётся из исходной картинки (а не из чистого шума) и частично зашумляется перед расшумлением по промпту.

Идея: не с нуля, а с эскиза

В text-to-image мы стартовали с чистого шума. В img2img старт — это ваше изображение: фотография, набросок, предыдущая генерация. Его кодируют VAE-энкодером в латент, добавляют шум (но не до конца!) и затем расшумляют по новому промпту. Так структура исходника сохраняется, а стиль и детали меняются.

text-to-image:  чистый шум          -> расшумление -> картинка
img2img:        ваша картинка
                -> энкодер VAE -> латент
                -> частичный шум   -> расшумление -> новая картинка

Главная ручка: denoising strength

Ключевой параметр img2img — denoising strength (сила зашумления), от 0 до 1. Он решает, насколько сильно зашумить исходник перед расшумлением:

Strength	Результат
0.2–0.3	лёгкая правка, почти оригинал
0.5–0.6	заметная переработка, структура сохранена
0.8–1.0	почти как text-to-image, от исходника мало что осталось

Как работает под капотом

Denoising strength буквально задаёт, с какого шага диффузии стартовать. При strength = 0.5 мы как бы перематываем прямой процесс до середины: исходная композиция ещё «просвечивает» сквозь шум, и расшумление достраивает остальное по промпту. При strength = 1.0 шум полный — исходник теряется, остаётся только его размер. Поэтому img2img отлично подходит для превращения наброска в детальную картинку или для смены стиля с сохранением позы.

Частые ошибки

Ставить strength 0.9 и удивляться, что исходник «пропал». При высокой силе остаётся только размер кадра.
Ждать сохранения мелких деталей при strength 0.7. Чем выше сила, тем меньше деталей исходника уцелеет.
Забывать про промпт. img2img всё равно слушает промпт; пустой промпт — слабое управление.

Типичные сценарии img2img

img2img незаменим там, где у вас уже есть отправная точка. Самые частые сценарии: превратить грубый набросок в детальную иллюстрацию (рисуете композицию мышкой за минуту, модель доводит); сменить стиль фотографии, сохранив позу и композицию; улучшить или переработать предыдущую генерацию, которая «почти получилась». Во всех случаях исходник задаёт каркас, а промпт и strength решают, насколько сильно его переосмыслить.

Практический приём — лесенка по strength. Начните с низкого значения (0.3) и смотрите, достаточно ли изменений; если мало — поднимайте по 0.1. Так вы найдёте минимальную силу, которая решает задачу, и максимально сохраните то хорошее, что уже есть в исходнике. Прыгать сразу на 0.9 рискованно: вы потеряете именно то, ради чего стартовали с готовой картинки, а не с шума.

Итог

img2img стартует с вашей картинки: её кодируют в латент, частично зашумляют и расшумляют по промпту.
denoising strength управляет балансом «сохранить исходник ↔ переделать заново».
Низкая сила — лёгкая правка, высокая — почти text-to-image.