RF
Runfuture

Обучение · Генерация изображений

Text-to-Image

Введение

Генерация изображений из текста (text-to-image) превращает текстовые описания в визуальный контент, позволяя создавать изображения буквально из слов. Хотя концепция проста, понимание различных параметров и их взаимодействия даёт вам точный контроль над результатом.

На этой странице описан основной пайплайн: как текст становится изображением, как структурировать запросы и как выбрать подходящую модель. Для углублённого изучения отдельных параметров перейдите на соответствующие страницы документации.

Базовый пример запроса

Простой запрос text-to-image для начала работы:

Запрос:

[
  {
    "taskType": "imageInference",
    "taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
    "model": "bfl:5@1",
    "positivePrompt": "Астронавт, парящий внутри гигантских песочных часов в космосе, окружённый звёздами и светящейся пылью, с галактиками над головой и золотым песком внизу. Мечтательно, сюрреалистично, кинематографично",
    "width": 1024,
    "height": 1024,
    "steps": 30
  }
]

Ответ:

{
  "data": [
    {
      "taskType": "imageInference",
      "imageUUID": "ca6b2d39-5f83-47b9-b22b-71f9afc935e8",
      "taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
      "seed": 9202427981074766178,
      "imageURL": "https://api.runfuture.ru/v1/images/ca6b2d39-5f83-47b9-b22b-71f9afc935e8.jpg"
    }
  ]
}

Как работает text-to-image

Генерация изображений из текста преобразует текстовые описания в визуальный контент через многоэтапный процесс, в котором модель постепенно конструирует изображение на основе вашего промпта. В основе лежат три ключевых фазы:

  1. Понимание текста: входной промпт обрабатывается текстовым энкодером, который преобразует естественный язык в числовое представление — эмбеддинги. Они захватывают семантическое значение, концептуальные связи и стилистические подсказки из вашего текста.
  2. Генерация в латентном пространстве: вместо работы с сырыми пикселями современные системы оперируют в латентном пространстве — абстрактном сжатом представлении изображений. Большинство продвинутых моделей используют диффузионный процесс: начинается со случайного шума, который постепенно уточняется в осмысленное изображение. Денойзинг направляется текстовыми эмбеддингами и выполняется нейросетью — обычно U-Net или Transformer-архитектурой вроде DiT. Некоторые модели следуют авторегрессионному подходу, генерируя изображение токен за токеном.
  3. Декодирование изображения: финальное латентное представление конвертируется в пиксельное изображение через декодер, часто являющийся частью Variational Autoencoder (VAE). Этот этап отвечает за текстуру, цвет и мелкие детали, формируя полноразмерное изображение.

Вместе эти фазы позволяют AI генерировать изображения, точно соответствующие смыслу и стилю вашего промпта.

Выбор модели

Параметр model определяет, какая AI-модель будет использована для генерации. Модели организованы по архитектурным семействам с разными возможностями:

  • SD 1.5: модели вроде civitai:4384@128713 (Dreamshaper v1) или специализированные варианты для конкретных стилей. Отлично подходят для художественных и креативных изображений.
  • SDXL: модели вроде civitai:133005@782002 (Juggernaut XL XI) с более высоким разрешением и лучшим фотореализмом по сравнению с SD 1.5.
  • FLUX: модели вроде bfl:5@1 (FLUX.1 Dev) — быстрая генерация, лучшее понимание композиции, обработка сложных сцен и стабильное качество. Отличная детализация лиц и сложных структур.
  • HiDream: модели вроде HiDream-I1 Full на Transformer-диффузионной архитектуре с Mixture-of-Experts (MoE). Сочетают качественное понимание текста с точным визуальным контролем, state-of-the-art результаты в креативных и фотореалистичных стилях.

Внутри каждой архитектуры отдельные модели могут быть дообучены для конкретных стилей, субъектов или задач. Выбор модели существенно влияет не только на эстетику, но и на интерпретацию промпта и эффективность параметров.

Промпт: Яростная женщина-воительница в замысловатых серебряных доспехах, отражающих тёплый закатный свет, с светящимся мечом с рунами на клинке, стоящая на скалистом утёсе с видом на фэнтезийную долину, ветер развевает тёмные волосы, кинематографичная атмосфера

Просмотрите доступные модели в каталоге моделей или через Model Search API.

Параметры генерации

Каждый параметр запроса управляет отдельным аспектом процесса генерации:

ПараметрЧто контролирует
positivePrompt / negativePromptЧто генерировать и чего избегать
width / heightРазмер холста и соотношение сторон
stepsКоличество итераций уточнения
CFGScaleНасколько строго модель следует промпту
schedulerАлгоритм денойзинга (скорость vs качество)
seedДетерминированная точка старта для воспроизводимости
vaeВизуальный декодер для финального изображения
clipSkipВыбор слоя текстового энкодера

Продвинутые функции

Эти функции расширяют text-to-image дополнительным контролем:

ФункцияНазначение
LoRAsЛёгкие адаптеры стиля/субъекта, модифицирующие базовую модель
ControlNetСтруктурное управление через карты границ, глубины и поз
IP AdaptersУсловие по референс-изображению для переноса стиля
EmbeddingsКастомные текстовые токены для специализированных концептов (SD 1.5/SDXL)
RefinerДвухэтапная генерация для улучшения деталей (только SDXL)

Подробнее о написании промптов читайте в разделе Промпты.