Обучение · Генерация изображений

Text-to-Image

Введение

Генерация изображений из текста (text-to-image) превращает текстовые описания в визуальный контент, позволяя создавать изображения буквально из слов. Хотя концепция проста, понимание различных параметров и их взаимодействия даёт вам точный контроль над результатом.

На этой странице описан основной пайплайн: как текст становится изображением, как структурировать запросы и как выбрать подходящую модель. Для углублённого изучения отдельных параметров перейдите на соответствующие страницы документации.

Базовый пример запроса

Простой запрос text-to-image для начала работы:

Запрос:

[
  {
    "taskType": "imageInference",
    "taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
    "model": "bfl:5@1",
    "positivePrompt": "Астронавт, парящий внутри гигантских песочных часов в космосе, окружённый звёздами и светящейся пылью, с галактиками над головой и золотым песком внизу. Мечтательно, сюрреалистично, кинематографично",
    "width": 1024,
    "height": 1024,
    "steps": 30
  }
]

Ответ:

{
  "data": [
    {
      "taskType": "imageInference",
      "imageUUID": "ca6b2d39-5f83-47b9-b22b-71f9afc935e8",
      "taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
      "seed": 9202427981074766178,
      "imageURL": "https://api.runfuture.ru/v1/images/ca6b2d39-5f83-47b9-b22b-71f9afc935e8.jpg"
    }
  ]
}

Как работает text-to-image

Генерация изображений из текста преобразует текстовые описания в визуальный контент через многоэтапный процесс, в котором модель постепенно конструирует изображение на основе вашего промпта. В основе лежат три ключевых фазы:

Понимание текста: входной промпт обрабатывается текстовым энкодером, который преобразует естественный язык в числовое представление — эмбеддинги. Они захватывают семантическое значение, концептуальные связи и стилистические подсказки из вашего текста.
Генерация в латентном пространстве: вместо работы с сырыми пикселями современные системы оперируют в латентном пространстве — абстрактном сжатом представлении изображений. Большинство продвинутых моделей используют диффузионный процесс: начинается со случайного шума, который постепенно уточняется в осмысленное изображение. Денойзинг направляется текстовыми эмбеддингами и выполняется нейросетью — обычно U-Net или Transformer-архитектурой вроде DiT. Некоторые модели следуют авторегрессионному подходу, генерируя изображение токен за токеном.
Декодирование изображения: финальное латентное представление конвертируется в пиксельное изображение через декодер, часто являющийся частью Variational Autoencoder (VAE). Этот этап отвечает за текстуру, цвет и мелкие детали, формируя полноразмерное изображение.

Вместе эти фазы позволяют AI генерировать изображения, точно соответствующие смыслу и стилю вашего промпта.

Выбор модели

Параметр model определяет, какая AI-модель будет использована для генерации. Модели организованы по архитектурным семействам с разными возможностями:

SD 1.5: модели вроде civitai:4384@128713 (Dreamshaper v1) или специализированные варианты для конкретных стилей. Отлично подходят для художественных и креативных изображений.
SDXL: модели вроде civitai:133005@782002 (Juggernaut XL XI) с более высоким разрешением и лучшим фотореализмом по сравнению с SD 1.5.
FLUX: модели вроде bfl:5@1 (FLUX.1 Dev) — быстрая генерация, лучшее понимание композиции, обработка сложных сцен и стабильное качество. Отличная детализация лиц и сложных структур.
HiDream: модели вроде HiDream-I1 Full на Transformer-диффузионной архитектуре с Mixture-of-Experts (MoE). Сочетают качественное понимание текста с точным визуальным контролем, state-of-the-art результаты в креативных и фотореалистичных стилях.

Внутри каждой архитектуры отдельные модели могут быть дообучены для конкретных стилей, субъектов или задач. Выбор модели существенно влияет не только на эстетику, но и на интерпретацию промпта и эффективность параметров.

Промпт: Яростная женщина-воительница в замысловатых серебряных доспехах, отражающих тёплый закатный свет, с светящимся мечом с рунами на клинке, стоящая на скалистом утёсе с видом на фэнтезийную долину, ветер развевает тёмные волосы, кинематографичная атмосфера

Просмотрите доступные модели в каталоге моделей или через Model Search API.

Параметры генерации

Каждый параметр запроса управляет отдельным аспектом процесса генерации:

Параметр	Что контролирует
`positivePrompt` / `negativePrompt`	Что генерировать и чего избегать
`width` / `height`	Размер холста и соотношение сторон
`steps`	Количество итераций уточнения
`CFGScale`	Насколько строго модель следует промпту
`scheduler`	Алгоритм денойзинга (скорость vs качество)
`seed`	Детерминированная точка старта для воспроизводимости
`vae`	Визуальный декодер для финального изображения
`clipSkip`	Выбор слоя текстового энкодера

Продвинутые функции

Эти функции расширяют text-to-image дополнительным контролем:

Функция	Назначение
LoRAs	Лёгкие адаптеры стиля/субъекта, модифицирующие базовую модель
ControlNet	Структурное управление через карты границ, глубины и поз
IP Adapters	Условие по референс-изображению для переноса стиля
Embeddings	Кастомные текстовые токены для специализированных концептов (SD 1.5/SDXL)
Refiner	Двухэтапная генерация для улучшения деталей (только SDXL)

Подробнее о написании промптов читайте в разделе Промпты.