Введение в API модели DALL·E

1. Введение в модель DALL·E

Модель DALL·E OpenAI - это искусственная интеллектуальная система, способная создавать изображения на основе текстовых подсказок. Ее возможности варьируются от простого воспроизведения изображений до креативного переосмысления сцен, описанных в тексте. Название "DALL·E" объединяет в себе имя художника Сальвадора Дали и анимационного персонажа WALL·E, символизируя пересечение художественности и автоматизации.

Модель DALL·E обучается с помощью глубокого обучения для понимания текстовых подсказок и их преобразования в визуальные представления. Будь то фотография, живопись, цифровое искусство или любая другая форма изображений, DALL·E может генерировать соответствующие изображения на основе описаний.

2. Основное использование модели генерации изображений DALL·E

OpenAI предоставляет API-интерфейс для DALL·E, позволяющий разработчикам интегрировать модель в свои собственные приложения или сервисы. Ниже приведен основной процесс и значения параметров для генерации изображений с использованием интерфейсов API DALL·E 3 и DALL·E 2:

curl -X POST https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer ВАШ_API_КЛЮЧ" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "dall-e-2", # Версия модели, может быть "dall-e-3" или "dall-e-2".
        "prompt": "Текстовая подсказка", # Текст, используемый для генерации изображения.
        "n": 1, # Количество генерируемых изображений.
        "size": "1024x1024", # Размер изображения.
        "quality": "standard" # Качество изображения, может быть "hd".
      }'

model: Указывает версию модели DALL·E для использования.
prompt: Предоставляет текстовую подсказку для модели, с помощью которой она создает изображения.
n: Указывает количество генерируемых изображений. DALL·E 3 может сгенерировать только 1 изображение за раз, тогда как DALL·E 2 может сгенерировать до 10 изображений одновременно.
size: Размер сгенерированного изображения. Для dall-e-2 он должен быть одним из 256x256, 512x512 или 1024x1024. Для dall-e-3 он должен быть одним из 1024x1024, 1792x1024 или 1024x1792.
quality: Устанавливает качество сгенерированного изображения. standard для стандартного качества, hd для высококачественного изображения.

3. Редактирование изображений и генерация вариантов (только для DALL·E 2)

3.1. Обработка изображений (редактирование или расширение изображений)

С функцией редактирования изображений DALL·E 2 вы можете загрузить изображение и соответствующую маску. Прозрачные области на маске указывают области, которые будут изменены, и модель сгенерирует содержимое в этих областях на основе новых текстовых подсказок. Эта функция может создавать новые элементы, отличающиеся от исходных элементов изображения, тем самым создавая отредактированные версии.

Продолжайте использовать пример запроса API с помощью команды curl:

curl -X POST https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "model=dall-e-2" \
  -F "prompt=Новое текстовое описание" \
  -F "image=@/путь_к_вашему_оригинальному_изображению.png" \
  -F "mask=@/путь_к_вашей_маске.png" \
  -F "n=1" \
  -F "size=1024x1024"

image: файл, содержащий оригинальное изображение.
mask: файл, содержащий маску, где прозрачная область указывает область, обрабатываемую моделью.
prompt: новый текстовый запрос, описывающий всё содержимое нового изображения, а не только стёртую область.

Важно отметить, что загруженное оригинальное изображение и маска должны быть квадратными PNG-изображениями, не превышающими 4 МБ в размере и имеющими одинаковые размеры.

Пример:

curl https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F image="@sunlit_lounge.png" \
  -F mask="@mask.png" \
  -F model="dall-e-2" \
  -F prompt="Солнечная комната с бассейном внутри и фламинго" \
  -F n=1 \
  -F size="1024x1024"

Оригинальное изображение Изображение маски Сгенерированное изображение

3.2. Генерация вариантов изображений

Используя DALL·E 2 для генерации вариантов изображений начинается с существующего изображения для создания нескольких версий, отличающихся содержанием или стилем. Эта функция может использоваться для исследования различных возможностей изображения или для творческого развития.

Аналогично, используйте команду curl для отправки запроса API:

curl -X POST https://api.openai.com/v1/images/variations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "image=@/путь_к_вашему_изображению.png" \
  -F "n=2" \
  -F "size=1024x1024"

image: файл, содержащий исходное изображение, для которого требуется создать варианты.
n: количество генерируемых вариантов, которое можно управлять этим параметром.

Как и ранее, входное изображение должно быть квадратным PNG-файлом, размером менее 4 МБ.

1. Введение в модель DALL·E

2. Основное использование модели генерации изображений DALL·E

3. Редактирование изображений и генерация вариантов (только для DALL·E 2)

3.1. Обработка изображений (редактирование или расширение изображений)

3.2. Генерация вариантов изображений

Связанные Учебные Пособия