DALL·EモデルAPIの概要

1. DALL·Eモデルの紹介

OpenAIのDALL·Eモデルは、テキストの提示から画像を生成する人工知能システムです。その能力は単純な画像複製からテキストで記述されたシーンの創造的な再構築まで幅広いです。"DALL·E"という名前は、画家サルバドール・ダリとアニメーションキャラクターのWALL·Eを融合させたもので、芸術性と自動化の交差を象徴しています。

DALL·Eモデルは、ディープラーニングによって訓練されてテキストの提示を理解し、それを視覚的な表現に変換します。写真、絵画、デジタルアート、その他のイメージの形式に関係なく、DALL·Eはその記述に基づいて対応する画像を生成することができます。

2. DALL·E画像生成モデルの基本的な使用方法

OpenAIはDALL·Eを使用するためのAPIインタフェースを提供しており、開発者はこのモデルを自分のアプリケーションやサービスに統合することができます。以下は、DALL·E 3とDALL·E 2のAPIインタフェースを使用して画像を生成するための基本的なプロセスとパラメータの意味です:

curl -X POST https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "dall-e-2", # モデルのバージョン。"dall-e-3" または "dall-e-2" を指定できます。
        "prompt": "テキストのプロンプト", # 画像を生成するために使用されるテキスト。
        "n": 1, # 生成する画像の数。
        "size": "1024x1024", # 生成される画像のサイズ。
        "quality": "standard" # 画像の品質。"hd" も指定できます。
      }'

model: 使用するDALL·Eモデルのバージョンを指定します。
prompt: モデルに提供されるテキストプロンプトで、モデルが画像を生成するために使用します。
n: 生成する画像の数を指定します。DALL·E 3は一度に1つの画像しか生成できませんが、DALL·E 2は最大で10枚の画像を同時に生成できます。
size: 生成される画像のサイズです。dall-e-2の場合、256x256、512x512、または1024x1024のいずれかでなければなりません。dall-e-3の場合、1024x1024、1792x1024、または1024x1792のいずれかでなければなりません。
quality: 生成される画像の品質を設定します。standardは標準品質、hdは高解像度品質です。

3. 画像の編集と変種生成（DALL·E 2のみ）

3.1. 画像編集（画像の編集または拡張）

DALL·E 2の画像編集機能を使用すると、画像とそれに対応するマスクをアップロードできます。マスク内の透明な領域は編集する部分を示し、モデルはこれらの領域に新しいテキストプロンプトに基づいてコンテンツを生成します。この機能により、元の画像要素とは異なる新しい要素を作成し、それによって編集されたバージョンを生成できます。

引き続き、curlコマンドを使用したAPIリクエストの例を示します：

curl -X POST https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "model=dall-e-2" \
  -F "prompt=新しいテキストの説明" \
  -F "image=@/path_to_your_original_image.png" \
  -F "mask=@/path_to_your_mask.png" \
  -F "n=1" \
  -F "size=1024x1024"

image: 元の画像を含むファイル。
mask: 透明な領域がモデルによって処理される領域を示すマスクを含むファイル。
prompt: 新しい画像の全体の内容を説明する新しいテキストプロンプト（消去された領域だけでなく）。

アップロードされた元の画像とマスクは、4MBを超えない、同じ寸法の正方形のPNG画像であることが重要です。

例：

curl https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F image="@sunlit_lounge.png" \
  -F mask="@mask.png" \
  -F model="dall-e-2" \
  -F prompt="日当たりの良い屋内の休息エリアにプールとフラミンゴがいます" \
  -F n=1 \
  -F size="1024x1024"

元の画像マスク画像生成された画像

3.2. 画像の変種生成

DALL·E 2を使用して画像の変種を生成する場合、既存の画像から異なる内容やスタイルのバージョンを作成します。この機能を使用して画像のさまざまな可能性を探ったり、創造的な進化を遂げたりすることができます。

同様に、curlコマンドを使用してAPIリクエストを送信します：

curl -X POST https://api.openai.com/v1/images/variations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "image=@/path_to_your_image.png" \
  -F "n=2" \
  -F "size=1024x1024"

image: 変種を生成する元の画像を含むファイル。
n: 生成する変種の数。このパラメータを使用して制御できます。

引き続き、入力画像は4MB未満の正方形のPNGファイルである必要があります。

1. DALL·Eモデルの紹介

2. DALL·E画像生成モデルの基本的な使用方法

3. 画像の編集と変種生成（DALL·E 2のみ）

3.1. 画像編集（画像の編集または拡張）

3.2. 画像の変種生成

関連チュートリアル