6 апреля 2026 г.

Stable Diffusion — открытая нейросеть для картинок

Stable Diffusion — семейство открытых моделей для генерации изображений от компании Stability AI. Главное отличие от Midjourney и DALL-E — исходный код и веса моделей опубликованы. Веса можно скачать с Hugging Face или Civitai и запустить локально на собственной видеокарте. После настройки генерации становятся бесплатными, без лимитов и подписок, с полной приватностью: ни один промпт и ни одна картинка не уходят на чужой сервер. По обзору AIToolRanked, Ropewalk и ToolHalla 2026.

Stability AI выпустила первую версию Stable Diffusion в августе 2022 года, и за четыре года экосистема превратилась в одну из крупнейших open-source площадок для работы с изображениями. На Civitai сейчас десятки тысяч кастомных моделей и LoRA-адаптеров под разные стили — от фотореализма до аниме и киберпанка. Доступ к моделям и интерфейсам открыт из РФ без VPN: Hugging Face и Civitai работают напрямую, локальный запуск вообще не требует интернета после установки.

Краткая история: от SD 1.4 до SD 3.5

Первая публичная версия — SD 1.4 — вышла в августе 2022 года и сразу стала событием: впервые модель уровня DALL-E 2 можно было запустить на домашней видеокарте. К октябрю 2022 появилась SD 1.5 — «народная» база для тысяч fine-tunes. В ноябре 2022 вышла SD 2.0 с переходом на OpenCLIP-энкодер, но сообщество её встретило прохладно: новая токенизация ломала привычные промпты.

Перелом случился в июле 2023 с релизом SDXL 1.0: нативное разрешение 1024×1024, архитектура base+refiner, заметный скачок качества. В июне 2024 вышла SD 3 Medium с архитектурой MMDiT, но из-за ограничительной лицензии массового подхвата не получила. В октябре 2024 Stability AI выпустила SD 3.5 Large, Medium и Large Turbo с пересмотренной Community License — бесплатное коммерческое использование при доходе до 1 миллиона долларов в год.

Версии моделей Stable Diffusion в 2026 году

Модель	Год	Параметров	Минимум VRAM	Особенности
SD 1.5	2022	0.9B	4 ГБ	Базовая модель, всё ещё активна на Civitai
SDXL 1.0	2023	3.5B	8 ГБ	Самая популярная в production, огромная экосистема
SD 3 Medium	2024	2B	8 ГБ	Промежуточный релиз, не получил массового подхвата
SD 3.5 Medium	2024	2.5B	8 ГБ	Оптимизирована для consumer GPU
SD 3.5 Large	2024	8B	16+ ГБ	Топовое качество в линейке Stability AI
SD 3.5 Large Turbo	2024	8B	16+ ГБ	Дистиллированная версия, 4 шага вместо 20

Stable Diffusion 1.5

Базовая модель 2022 года, обученная на разрешении 512×512. Несмотря на возраст, остаётся актуальной благодаря тысячам fine-tunes и LoRA, которые сообщество выпустило за годы. Используется там, где нужна совместимость со старыми ControlNet-моделями и расширениями. Запускается на видеокартах с 4 ГБ VRAM.

SDXL 1.0

Релиз июля 2023 года, нативное разрешение 1024×1024. По данным Will It Run AI, SDXL остаётся самой популярной моделью в production-сценариях: под неё выпущено больше всего community-fine-tunes, LoRA и ControlNet-моделей. Самые известные fine-tunes — Juggernaut XL, RealVisXL, DreamShaper XL — закрывают фотореализм, портреты, продуктовую съёмку, ландшафты.

SD 3 Medium

Релиз июня 2024 года. Новая архитектура Multimodal Diffusion Transformer (MMDiT), улучшенная обработка текста на изображениях. Массового подхвата сообщества не получил: лицензия первой версии ограничивала коммерческое использование, и многие разработчики LoRA остались на SDXL.

SD 3.5 Medium и SD 3.5 Large

Релиз октября 2024 года. Stability AI пересмотрела лицензию, разрешив бесплатное коммерческое использование при доходе до 1 миллиона долларов в год. SD 3.5 Large — 8 миллиардов параметров, топовое качество в линейке. SD 3.5 Medium — 2.5 миллиарда, оптимизирована для видеокарт с 8 ГБ VRAM. Отдельно вышла дистиллированная версия Large Turbo — четыре шага семплирования вместо двадцати, скорость в пять раз выше при сравнимом качестве.

Важный нюанс: SD 3.5 поддерживается только в ComfyUI. Forge и Automatic1111 на момент середины 2026 года полную поддержку SD 3.5 так и не добавили. Это одна из причин, почему SDXL остаётся доминирующей моделью у большинства пользователей.

Архитектура: что под капотом

В основе Stable Diffusion — латентная диффузионная модель. Алгоритм работает не с пикселями напрямую, а в сжатом латентном пространстве: вариационный автоэнкодер (VAE) сжимает изображение в небольшой тензор, диффузионная сеть пошагово «расшумляет» его, после чего VAE декодирует обратно в картинку. Такой подход на порядок снижает требования к памяти.

В SD 1.5 и SDXL диффузионная сеть — U-Net с cross-attention. SDXL добавляет второй текстовый энкодер и refiner-этап. В SD 3.5 U-Net заменён на Multimodal Diffusion Transformer (MMDiT) с тремя энкодерами: OpenCLIP-ViT/G, CLIP-ViT/L и T5-XXL. По данным neyroforge.store, это даёт расширенный контекст до 256 токенов и точную типографику внутри изображений.

Сэмплеры, CFG и VAE — что настраивается

Помимо промпта и модели задаются три ключевых параметра.

Сэмплер. Алгоритм пошагового расшумления. Для SDXL стартовый выбор — DPM++ 2M Karras. Для SD 3.5 в ComfyUI — Euler с планировщиком sgm_uniform.

Шаги. SDXL — 25–35 шагов, SD 3.5 Large — 28–35, Large Turbo — всего 4 благодаря дистилляции.

CFG Scale. Сила следования промпту. Для SDXL оптимум 5–7, для SD 3.5 — 3.5–4.5, для Turbo-моделей — 1–2.

VAE. Декодер из латентного пространства в пиксели. Для SD 3.5 встроен оптимизированный VAE с 16 каналами против 4 у SDXL — это и даёт прирост в мелких деталях и тексте.

Промптинг: ключевые слова vs естественный язык

По данным The Right GPT, в 2026 году тренд смещён в сторону естественного языка. SD 1.5 и SDXL обучены на парах «картинка — короткий тег»: работает booru-style промпт через запятую, веса задаются скобками (red dress:1.3). SD 3.5 благодаря T5-XXL энкодеру понимает развёрнутые описания на естественном английском — точность следования сложным многокомпонентным промптам заметно выше. Negative prompt в SDXL остаётся привычной практикой; в SD 3.5 негативные промпты влияют слабее, модель лучше реагирует на позитивные инструкции напрямую.

Что Stable Diffusion умеет

txt2img — генерация по тексту

Базовый режим: пишется промпт, модель генерирует изображение. SDXL обучен нативно на разрешении 1024×1024, SD 3.5 поддерживает разрешения до 2048×2048 без потери качества композиции.

img2img — преобразование изображения

На вход подаётся исходная картинка и промпт. Модель перерисовывает её, сохраняя композицию, но меняя стиль или содержание. Используется для стилизации фотографий, апскейлинга, переноса стиля.

Inpainting — перерисовка области

Выделяется часть изображения маской, и модель заменяет только эту область по промпту. Применяется для замены объектов, ретуши, удаления нежелательных элементов, восстановления повреждённых фотографий.

Outpainting — расширение изображения

Достраивание изображения за пределами исходного кадра. Модель дорисовывает контекст вокруг существующей картинки — расширяет горизонт, добавляет фон, увеличивает кадр.

ControlNet — управление композицией

Расширение, позволяющее задавать структуру результата через дополнительные входы: позу человека (OpenPose), карту глубины (Depth), контуры (Canny), скетч, нормали поверхностей. Полезно, когда нужна точная композиция, а не случайная.

LoRA — тонкая настройка под стиль

Low-Rank Adaptation — лёгкий способ адаптировать модель под конкретного персонажа, стиль, объект, не переобучая её целиком. Размер LoRA — обычно 50–200 МБ против 3–8 ГБ у полного fine-tune. На Civitai выложено больше пятидесяти тысяч LoRA: стили художников, аниме-персонажи, фотореалистичные образы, продуктовые категории.

IP-Adapter — генерация по образцу

Подаётся изображение-референс и текстовый промпт. Модель генерирует новое изображение, сохраняя стиль, лицо или композицию референса. Используется для consistency персонажей между сценами, переноса стиля без LoRA-обучения.

Где запустить локально

По гайду The Right GPT 2026 и ToolHalla, для локального запуска в 2026 году актуальны пять интерфейсов.

Forge

Оптимизированный форк Automatic1111 WebUI. Тратит на 30–50 процентов меньше VRAM при том же качестве. Привычный для тех, кто работал с A1111, интерфейс на вкладках. Лучший выбор для большинства пользователей: быстрый старт, ADetailer для авто-фикса лиц, поддержка ControlNet и LoRA из коробки. SDXL и SD 1.5 — основные поддерживаемые семейства; SD 3.5 не работает.

Automatic1111 WebUI

Исторически первый и самый известный интерфейс. Огромное количество расширений и туториалов. Развитие замедлилось после появления Forge: обновления реже, новые модели поддерживаются с задержкой. Имеет смысл, если нужны редкие расширения, которые не портировали в Forge.

ComfyUI

Нодовый интерфейс: пайплайн собирается из блоков визуально, как в Houdini или Blender Geometry Nodes. Сложнее для старта, но даёт максимум гибкости. Единственный интерфейс с полной поддержкой SD 3.5, Flux и большинства новых моделей. Подходит для batch-обработки, мульти-модельных пайплайнов, кастомных воркфлоу.

Fooocus

Минималистичный интерфейс: один промпт, кнопка «Generate», результат. Скрывает все технические настройки, использует SDXL под капотом. Подходит тем, кто хочет качество SDXL без погружения в семплеры, CFG и негативные промпты.

SD.Next

Активно развивающийся форк A1111 с акцентом на новые модели и оптимизацию. Поддерживает SD 3.5, Flux, видеомодели. Альтернатива ComfyUI для тех, кто хочет вкладочный интерфейс, но с поддержкой свежих архитектур.

Минимальная настройка Forge

Установить Python 3.10 и Git
Склонировать репозиторий Forge с GitHub
Запустить установочный скрипт — он скачает зависимости
Скачать модель SDXL (Juggernaut XL рекомендуется как универсальная) с Civitai
Положить веса в папку models/Stable-diffusion/
Запустить webui-user.bat (Windows) или webui.sh (Linux/macOS)
Открыть http://127.0.0.1:7860

Первый запуск — около часа: скачивание модели в 6–8 ГБ занимает основное время.

Облачные провайдеры

Когда GPU нет или нужен API для интеграции, Stable Diffusion доступен через облако.

Replicate. Размещает все основные модели Stable Diffusion и community-fine-tunes. Оплата по факту использования: от 0.0023 доллара за SDXL-генерацию до 0.04 доллара за SD 3.5 Large. API совместим с большинством библиотек.

Hugging Face Inference API. Официальный хостинг весов плюс serverless-инференс. Бесплатный rate-limited тариф для тестов, Pro-подписка за 9 долларов в месяц снимает лимиты. Подходит для быстрых прототипов.

Civitai On-Site Generator. Прямо на Civitai можно генерировать любой моделью из библиотеки без локальной установки. Тариф — buzz-валюта, базовая бесплатная квота обновляется ежедневно.

fal.ai. Быстрый serverless-хостинг с фокусом на скорость инференса. SD 3.5 Large Turbo и Flux доступны за миллисекунды. Цена — около 0.025 доллара за изображение.

Stability AI API. Официальный API от создателей Stable Diffusion. Доступ к свежим моделям первым, оплата по кредитам. Цена сопоставима с Replicate.

RunDiffusion. GPU-хостинг готовых интерфейсов в браузере: Forge, ComfyUI, A1111 поднимаются за минуты, оплата почасовая.

Together AI. Serverless-инференс с фокусом на open-source модели. SDXL и SD 3.5 Large доступны через единый API, есть batch-режим со скидкой до 50 процентов для оффлайн-задач.

Benchmark: SD 3.5 vs SDXL vs FLUX

По данным The Right GPT на март 2026 года.

Модель	VRAM	Скорость, it/s	Следование промпту	Где сильна
SD 3.5 Large	12–16 ГБ	2.1–2.8	9.2/10	сложные сцены, текст, кинематографичный кадр
SD 3.5 Medium	7–10 ГБ	3.4–4.1	8.5/10	портреты, продуктовая съёмка
FLUX.1 Schnell	9–12 ГБ	3.8–4.5	8.9/10	фотореализм, быстрый инференс
SDXL baseline	6–8 ГБ	3.0–3.8	7.5/10	legacy-воркфлоу, огромная экосистема

SD 3.5 Large лидирует в сложных промптах с двумя-тремя субъектами и точной типографикой. FLUX.1 выигрывает в чистом фотореализме без дополнительных fine-tunes. SDXL уступает по голому качеству, но компенсирует это десятками тысяч LoRA, обученных за три года.

Сколько стоит Stable Diffusion

Сама модель — бесплатно. Веса SDXL и SD 3.5 скачиваются с Hugging Face и Civitai. Лицензии: SDXL — CreativeML Open RAIL++-M (коммерческое использование разрешено), SD 3.5 — Stability AI Community License (бесплатно при доходе до 1 миллиона долларов в год).

Локально на своём GPU. После покупки видеокарты — генерации бесплатны без ограничений. RTX 3060 12GB на вторичном рынке стоит около 200 долларов и тянет SDXL комфортно. Для SD 3.5 Large нужна RTX 4070 Ti или выше. Электричество — порядка 5–10 рублей за час работы.

Через облако. От 0.002 до 0.05 доллара за изображение в зависимости от модели и провайдера. Подходит для нерегулярного использования или интеграции в продукт без необходимости держать GPU.

Доступ из РФ

Stable Diffusion полностью доступен из России без VPN. Сами веса скачиваются с Hugging Face и Civitai напрямую — площадки работают без блокировок. Локально запущенный Stable Diffusion вообще не требует интернета: после установки можно работать офлайн.

Облачные провайдеры доступны по-разному: Replicate и fal.ai требуют американскую карту для оплаты, Civitai On-Site принимает крипто-кошельки, Hugging Face Pro — оплата через зарубежные карты. Для большинства задач локальный запуск решает проблему оплаты.

Stable Diffusion vs альтернативы

vs Midjourney. Midjourney даёт топовое качество без настройки, но платно (от 10 долларов в месяц), оплата через зарубежные карты, доступ из РФ ограничен. Stable Diffusion локально бесплатен и работает из коробки в РФ, но требует освоения и подходящего GPU.

vs Flux. Flux от Black Forest Labs — конкурент SD 3.5 Large по качеству, требует 24+ ГБ VRAM в нативной точности. Запускается в ComfyUI. Качество в фотореализме часто лучше SD 3.5, но экосистема LoRA и ControlNet меньше.

vs Nano Banana 2 (Google). Nano Banana 2 — закрытая модель Google, доступ через Gemini API, плата за токены. Сильнее в редактировании существующих изображений, character consistency, многошаговых правках. Stable Diffusion сильнее в кастомизации стиля под нишу и приватности.

vs DALL-E. DALL-E встроен в ChatGPT, проще доступ, но платно и не из РФ напрямую. Stable Diffusion — open-source, требует железа, но даёт полный контроль.

vs Шедеврум / Kandinsky. Шедеврум и Kandinsky — бесплатные веб-сервисы из РФ. Stable Diffusion локально даёт больше контроля, кастомных моделей и приватности, но требует освоения и GPU.

Use cases

Кастомные модели под нишу. Под продуктовую категорию обучается LoRA на 30–100 фотографиях, и SDXL начинает генерировать продукт нужного бренда в любых сценах. Используется в e-commerce, рекламных агентствах, контент-студиях.

Anime и стилизованная графика. SD 1.5 и SDXL имеют огромную библиотеку аниме-моделей: Anything, Counterfeit, Pony Diffusion, Animagine XL. Качество близко к работам профессиональных иллюстраторов, скорость в десятки раз быстрее ручной отрисовки.

Фотореализм через LoRA. Juggernaut XL, RealVisXL, EpiCRealism — fine-tunes SDXL под фотореалистичные портреты, продукты, интерьеры. С добавлением LoRA на конкретное лицо или объект получается консистентный персонаж в сериях.

Concept art и геймдев. ControlNet задаёт композицию по скетчу, LoRA — стиль проекта, IP-Adapter — характер персонажа. Студии используют для черновой проработки локаций, костюмов, моделек.

Архитектурная визуализация. ControlNet Depth и Canny по плану здания или скетчу фасада генерируют фотореалистичную визуализацию. Быстрее и дешевле классического рендера для предварительных эскизов.

Приватный production. Команды генерят клиентский контент локально, без отправки промптов и брендовых ассетов на чужие серверы. Критично для медицины, юриспруденции, госсектора.

Синтетические датасеты для компьютерного зрения. В 2026 году распространилась практика генерации обучающих выборок для YOLO и других детекторов через Stable Diffusion + ControlNet + автоматическая разметка через GroundingDINO или Florence-2. По данным The Right GPT, такой подход сокращает затраты на сбор данных и позволяет покрывать редкие сценарии, которые сложно набрать в реальности.

Кириллический текст в изображениях. SDXL практически не справляется с русским алфавитом — буквы превращаются в нечитаемые символы. SD 3.5 ситуацию улучшил, но всё ещё стабильно работает только с короткими надписями (1–3 слова) и крупным кеглем. Для уверенной кириллики на постерах и обложках чаще используют Nano Banana 2 или ручной композ через Photoshop / Figma поверх сгенерированного фона.

ComfyUI: типовые воркфлоу

ComfyUI — нодовый редактор, в котором пайплайн собирается из блоков (Load Checkpoint, CLIP Text Encode, KSampler, VAE Decode, Save Image). По данным The Right GPT, самые востребованные шаблоны нод в 2026:

Character Consistency — IP-Adapter + ControlNet + FaceID Plus: один персонаж в десятках сцен.
High-Res Upscale — базовый кадр 1024×1024, затем апскейл до 4096×4096 через Ultimate SD Upscale.
Product Photography — ControlNet Depth + Canny + LoRA бренда: продукт переносится в произвольный сценарий.
Inpainting — Differential Diffusion + маска: безшовная замена объектов на готовой фотографии.

Готовые JSON-воркфлоу скачиваются с Civitai и OpenArt и перетаскиваются прямо в окно ComfyUI.

Hardware: что брать в 2026

Бюджетный сетап. RTX 3060 12GB на вторичном рынке. Тянет SDXL на разрешении 1024×1024 комфортно, поддерживает основные LoRA и ControlNet. Для SD 3.5 Medium хватит, для Large — нет.

Средний. RTX 4070 Super 12GB или RTX 4070 Ti Super 16GB. SDXL — быстро, SD 3.5 Large запускается через fp8-квантизацию.

Топ. RTX 4090 24GB или RTX 5090 32GB (Blackwell). SD 3.5 Large в fp16, FLUX.1 dev в нативной точности, batch-генерация.

Mac. На Apple Silicon Stable Diffusion работает через MLX-бэкенд в DrawThings, ComfyUI и SwiftDiffusion. Скорость заметно ниже NVIDIA, зато энергопотребление в разы меньше.

AMD. Поддержка через ROCm и DirectML улучшилась, но всё ещё уступает CUDA по скорости и совместимости с расширениями.

Сильные стороны

Открытая модель. Веса скачиваются, запускаются локально, дорабатываются под себя.
Бесплатно при локальном запуске. Никаких подписок и платежей за генерации.
Полная приватность. Промпты и изображения не уходят на чужой сервер.
Огромная экосистема. Десятки тысяч fine-tunes и LoRA на Civitai.
ControlNet и IP-Adapter. Точное управление композицией и стилем.
Гибкость пайплайна. ComfyUI позволяет собрать любой сложный воркфлоу.
Доступ из РФ. Hugging Face и Civitai работают без VPN.

Слабые стороны

Требует GPU. 8+ ГБ VRAM для SDXL, 16+ ГБ для SD 3.5 Large.
Сложность первой настройки. Forge — час на установку и скачивание модели, ComfyUI — больше времени на понимание нод.
Качество требует подбора моделей. Базовая SDXL уступает Midjourney «из коробки», нужны fine-tunes с Civitai.
Слабая работа с текстом на изображениях. SDXL уступает GPT Image и Nano Banana 2; SD 3.5 ближе, но не идеален.
Нет поддержки. Это open-source, проблемы решаются через community-форумы и Reddit, не через support.
SD 3.5 только в ComfyUI. Forge и A1111 свежие модели поддерживают с большой задержкой.

Для нашей аудитории

Большинству пользователей Stable Diffusion избыточен: требует GPU, настройки, времени на освоение. Для повседневных задач Шедеврум или Kandinsky 6.0 проще и работают без установки.

Stable Diffusion реально нужен:

иллюстратору — кастомные модели Civitai под уникальный стиль и LoRA-адаптеры;
продакшен-команде — большие объёмы генерации с приватностью данных;
разработчику — интеграция в продукт через локальное развёртывание или API;
энтузиасту с подходящим железом — полный контроль над процессом без подписок.

FAQ

Что такое Stable Diffusion простыми словами? Открытая нейросеть для генерации изображений от компании Stability AI. Веса модели опубликованы, и её можно скачать и запустить на собственной видеокарте. После настройки — неограниченное число бесплатных генераций с полной приватностью.

Бесплатна ли Stable Diffusion? Сама модель — да, веса скачиваются с Hugging Face и Civitai бесплатно. Использовать можно либо локально на своём GPU (бесплатно после покупки железа), либо через облачные API (платно — от 0.002 до 0.05 доллара за изображение).

Какое железо нужно для локального запуска? SDXL: 8+ ГБ VRAM, рекомендуется RTX 3060 12GB и выше. SD 3.5 Medium: 8+ ГБ. SD 3.5 Large: 16+ ГБ, лучше RTX 4070 Ti или выше. SD 1.5: достаточно 4 ГБ.

Какой интерфейс выбрать для начала? Forge — лучший выбор для большинства: оптимизирован по памяти, привычные вкладки, час на установку. ComfyUI — для тех, кто готов разбираться с нодами и нужны свежие модели вроде SD 3.5 и Flux. Fooocus — если хочется одну кнопку без настроек.

Где скачивать модели и LoRA? Hugging Face — официальные веса от Stability AI. Civitai — крупнейшая community-площадка с fine-tunes, LoRA, ControlNet-моделями. Обе работают из РФ без VPN.

Можно ли использовать Stable Diffusion коммерчески? SDXL — да, лицензия CreativeML Open RAIL++-M разрешает коммерческое использование. SD 3.5 — да, лицензия Stability AI Community License бесплатна при годовом доходе до 1 миллиона долларов. Отдельные fine-tunes с Civitai могут иметь ограничения — проверять на странице модели.

Какая модель лучше — SDXL или SD 3.5? SDXL — самая популярная, огромная экосистема fine-tunes, ControlNet и LoRA. SD 3.5 — новее, лучше работает с текстом и сложными композициями, но community меньше и поддерживается пока только в ComfyUI. Для большинства задач — SDXL.

Что такое ControlNet и LoRA? ControlNet — расширение для управления композицией: задать позу через скетч, depth-map для глубины, edges для контуров. LoRA — лёгкий адаптер (50–200 МБ), который подгружается поверх базовой модели и адаптирует её под конкретный стиль или персонажа без полного переобучения.

Stable Diffusion работает в РФ? Да, полностью. Hugging Face и Civitai открываются без VPN. Локально установленный Stable Diffusion вообще не требует интернета. Облачные провайдеры (Replicate, fal.ai, Stability API) требуют зарубежной карты для оплаты — для регулярного использования проще локальный запуск.

Stable Diffusion vs Midjourney — что выбрать? Midjourney даёт топовое качество без настройки, но платно и оплата через зарубежные карты. Stable Diffusion локально бесплатен, доступен из РФ, требует GPU и освоения. Для коммерческого production с приватностью — Stable Diffusion, для быстрых концептов без возни — Midjourney.

Можно ли запустить Stable Diffusion без видеокарты? Технически да: CPU-инференс работает, но один кадр 1024×1024 на SDXL занимает 10–30 минут. Это неприменимо для регулярной работы. Альтернатива — облако (Replicate, fal.ai, Civitai On-Site) или аренда GPU по часам (RunDiffusion, RunPod, vast.ai).

Что такое CFG Scale и сколько ставить? CFG Scale (classifier-free guidance) — сила, с которой модель «прижимается» к промпту. Низкие значения (3–5) дают модели больше свободы, высокие (8–12) — жёсткое следование. Для SDXL оптимум 5–7, для SD 3.5 — 3.5–4.5, для Turbo и Schnell — 1–2.

Какой сэмплер выбрать? Для SDXL стартовый выбор — DPM++ 2M Karras (25–30 шагов): баланс качества и скорости. Для SD 3.5 в ComfyUI используют Euler с планировщиком sgm_uniform на 28–35 шагов. Для черновиков и пробных кадров — Euler a на 15–20 шагов.

SD 3.5 умеет в кириллицу? Лучше, чем SDXL, но не идеально. Короткие надписи (1–3 слова) крупным кеглем получаются стабильно. Длинные русские тексты на постерах и обложках по-прежнему лучше композить вручную поверх сгенерированного фона.

Чем отличается LoRA от Checkpoint? Checkpoint — полная модель весом 3–8 ГБ, обученная с нуля или fine-tune. LoRA — лёгкий адаптер 50–200 МБ, который подгружается поверх Checkpoint и точечно меняет стиль, лицо или объект. На одну базовую модель можно одновременно подключить несколько LoRA с разными весами.

Что такое ControlNet и зачем он нужен? ControlNet задаёт композицию через дополнительный вход: позу скелета (OpenPose), карту глубины (Depth), контуры (Canny), скетч, сегментацию. Полезен, когда нужно точно повторить кадр референса или нарисовать персонажа в заданной позе, а не надеяться на случайность генерации.

Дальше

Если Stable Diffusion — пока избыточен, посмотрите Шедеврум и Kandinsky — оба работают из РФ без VPN, без установки и без подписки. Когда нужен максимум качества из коробки и есть бюджет на зарубежную карту — выбирайте Midjourney или DALL-E. Для серьёзного локального production-стека после Stable Diffusion логично добавить FLUX — конкурент SD 3.5 Large по качеству фотореализма.

Полезные смежные материалы: нейросети для картинок — общий обзор, Recraft для брендового дизайна, как писать промт для картинки — там разобраны конструкции, которые работают и в SDXL, и в SD 3.5.