1. Einführung in das DALL·E-Modell

Das DALL·E-Modell von OpenAI ist ein künstliches Intelligenzsystem, das Bilder aus textuellen Eingaben generieren kann. Seine Fähigkeiten reichen von einfacher Bildreplikation bis hin zur kreativen Neugestaltung von in Text beschriebenen Szenen. Der Name "DALL·E" ist eine Fusion des Malers Salvador Dalí und der animierten Figur WALL·E und symbolisiert den Schnittpunkt von Kunstfertigkeit und Automatisierung.

Das DALL·E-Modell wird mittels Deep Learning trainiert, um textuelle Eingaben zu verstehen und in visuelle Darstellungen zu transformieren. Egal, ob es sich um Fotografie, Malerei, digitale Kunst oder jede andere Form von Bildmaterial handelt, DALL·E kann passende Bilder anhand der Beschreibungen generieren.

2. Grundlegende Nutzung des DALL·E-Bildgenerierungsmodells

OpenAI bietet eine API-Schnittstelle für DALL·E, die es Entwicklern ermöglicht, das Modell in ihre eigenen Anwendungen oder Dienste zu integrieren. Unten sind der grundlegende Prozess und die Parametererklärungen für die Bildgenerierung mit den DALL·E 3- und DALL·E 2-API-Schnittstellen aufgeführt:

curl -X POST https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer DEIN_API-SCHLÜSSEL" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "dall-e-2", # Modellversion, kann "dall-e-3" oder "dall-e-2" sein.
        "prompt": "Texteingabe", # Text zur Bildgenerierung.
        "n": 1, # Anzahl der zu generierenden Bilder.
        "size": "1024x1024", # Größe des Bildes.
        "quality": "standard" # Bildqualität, kann "hd" sein.
      }'
  • model: Spezifiziert die zu verwendende Version des DALL·E-Modells.
  • prompt: Bietet die textuelle Eingabe für das Modell, das es zur Bildgenerierung verwendet.
  • n: Spezifiziert die Anzahl der zu generierenden Bilder. DALL·E 3 kann jeweils nur 1 Bild generieren, während DALL·E 2 gleichzeitig bis zu 10 Bilder generieren kann.
  • size: Größe des generierten Bildes. Für dall-e-2 muss es 256x256, 512x512 oder 1024x1024 sein. Für dall-e-3 muss es 1024x1024, 1792x1024 oder 1024x1792 sein.
  • quality: Legt die Qualität des generierten Bildes fest. standard für Standardqualität, hd für High-Definition-Qualität.

3. Bildbearbeitung und Variantengenerierung (nur DALL·E 2)

3.1. Bildbearbeitung (Bearbeitung oder Erweiterung von Bildern)

Mit der Bildbearbeitungsfunktion von DALL·E 2 können Sie ein Bild und die entsprechende Maske hochladen. Die transparenten Bereiche in der Maske zeigen die zu bearbeitenden Teile an, und das Modell generiert aufgrund der neuen Texteingaben Inhalte in diesen Bereichen. Diese Funktion kann neue Elemente erzeugen, die sich von den ursprünglichen Bildelementen unterscheiden, und so bearbeitete Versionen generieren.

Setzen Sie die API-Anfrage mit dem curl-Befehl fort:

curl -X POST https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer DEIN_API_SCHLÜSSEL" \
  -H "Content-Type: multipart/form-data" \
  -F "model=dall-e-2" \
  -F "prompt=Neue textuelle Beschreibung" \
  -F "image=@/Pfad_zu_deinem_originalen_bild.png" \
  -F "mask=@/Pfad_zu_deiner_maske.png" \
  -F "n=1" \
  -F "size=1024x1024"
  • image: Datei mit dem Originalbild.
  • mask: Datei mit der Maske, wobei der transparente Bereich den Bereich angibt, der vom Modell verarbeitet werden soll.
  • prompt: Neue textuelle Beschreibung, die den gesamten Inhalt des neuen Bildes beschreibt, nicht nur den gelöschten Bereich.

Es ist wichtig zu beachten, dass das hochgeladene Originalbild und die Maske quadratische PNG-Bilder sein müssen, nicht mehr als 4 MB groß sein dürfen und dieselben Abmessungen haben müssen.

Beispiel:

curl https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer $OPENAI_API_SCHLÜSSEL" \
  -F image="@sunlit_lounge.png" \
  -F mask="@maske.png" \
  -F model="dall-e-2" \
  -F prompt="Ein sonnendurchfluteter Innenruhebereich mit einem Schwimmbad und einem Flamingo drinnen" \
  -F n=1 \
  -F size="1024x1024"

Originalbild Maskenbild Generiertes Bild

3.2. Generierung von Bildvarianten

Die Verwendung von DALL·E 2 zur Generierung von Bildvarianten beginnt mit einem vorhandenen Bild, um einige Versionen zu erstellen, die sich im Inhalt oder Stil unterscheiden. Diese Funktion kann verwendet werden, um verschiedene Möglichkeiten eines Bildes zu erkunden oder für eine kreative Entwicklung.

Ähnlich wie zuvor verwenden Sie den curl-Befehl, um eine API-Anfrage zu senden:

curl -X POST https://api.openai.com/v1/images/variations \
  -H "Authorization: Bearer DEIN_API_SCHLÜSSEL" \
  -H "Content-Type: multipart/form-data" \
  -F "image=@/Pfad_zu_deinem_bild.png" \
  -F "n=2" \
  -F "size=1024x1024"
  • image: Datei mit dem Originalbild, für das Varianten generiert werden sollen.
  • n: Anzahl der zu generierenden Varianten, die mit diesem Parameter gesteuert werden kann.

Wie zuvor muss das Eingangsbild eine quadratische PNG-Datei sein und kleiner als 4 MB.