img2img: картинка как отправная точка
Урок про режим, где стартом служит не чистый шум, а ваша готовая картинка.
img2img — генерация, в которой стартовый латент берётся из исходной картинки (а не из чистого шума) и частично зашумляется перед расшумлением по промпту.
Идея: не с нуля, а с эскиза
В text-to-image мы стартовали с чистого шума. В img2img старт — это ваше изображение: фотография, набросок, предыдущая генерация. Его кодируют VAE-энкодером в латент, добавляют шум (но не до конца!) и затем расшумляют по новому промпту. Так структура исходника сохраняется, а стиль и детали меняются.
text-to-image: чистый шум -> расшумление -> картинка
img2img: ваша картинка
-> энкодер VAE -> латент
-> частичный шум -> расшумление -> новая картинкаГлавная ручка: denoising strength
Ключевой параметр img2img — denoising strength (сила зашумления), от 0 до 1. Он решает, насколько сильно зашумить исходник перед расшумлением:
| Strength | Результат |
| 0.2–0.3 | лёгкая правка, почти оригинал |
| 0.5–0.6 | заметная переработка, структура сохранена |
| 0.8–1.0 | почти как text-to-image, от исходника мало что осталось |
Как работает под капотом
Denoising strength буквально задаёт, с какого шага диффузии стартовать. При strength = 0.5 мы как бы перематываем прямой процесс до середины: исходная композиция ещё «просвечивает» сквозь шум, и расшумление достраивает остальное по промпту. При strength = 1.0 шум полный — исходник теряется, остаётся только его размер. Поэтому img2img отлично подходит для превращения наброска в детальную картинку или для смены стиля с сохранением позы.
Частые ошибки
- Ставить strength 0.9 и удивляться, что исходник «пропал». При высокой силе остаётся только размер кадра.
- Ждать сохранения мелких деталей при strength 0.7. Чем выше сила, тем меньше деталей исходника уцелеет.
- Забывать про промпт. img2img всё равно слушает промпт; пустой промпт — слабое управление.
Типичные сценарии img2img
img2img незаменим там, где у вас уже есть отправная точка. Самые частые сценарии: превратить грубый набросок в детальную иллюстрацию (рисуете композицию мышкой за минуту, модель доводит); сменить стиль фотографии, сохранив позу и композицию; улучшить или переработать предыдущую генерацию, которая «почти получилась». Во всех случаях исходник задаёт каркас, а промпт и strength решают, насколько сильно его переосмыслить.
Практический приём — лесенка по strength. Начните с низкого значения (0.3) и смотрите, достаточно ли изменений; если мало — поднимайте по 0.1. Так вы найдёте минимальную силу, которая решает задачу, и максимально сохраните то хорошее, что уже есть в исходнике. Прыгать сразу на 0.9 рискованно: вы потеряете именно то, ради чего стартовали с готовой картинки, а не с шума.
Итог
- img2img стартует с вашей картинки: её кодируют в латент, частично зашумляют и расшумляют по промпту.
- denoising strength управляет балансом «сохранить исходник ↔ переделать заново».
- Низкая сила — лёгкая правка, высокая — почти text-to-image.