1. Introduction au modèle DALL·E
Le modèle DALL·E de OpenAI est un système d'intelligence artificielle capable de générer des images à partir de descriptions textuelles. Ses capacités vont de la simple reproduction d'images à la réimagination créative de scènes décrites dans un texte. Le nom "DALL·E" est une fusion du peintre Salvador Dalí et du personnage animé WALL·E, symbolisant la convergence de l'art et de l'automatisation.
Le modèle DALL·E est entraîné par apprentissage profond pour comprendre les descriptions textuelles et les transformer en représentations visuelles. Que ce soit en photographie, en peinture, en art numérique ou sous toute autre forme d'imagerie, DALL·E peut générer des images correspondant à ces descriptions.
2. Utilisation de base du modèle de génération d'images DALL·E
OpenAI propose une interface API pour DALL·E, permettant aux développeurs d'intégrer le modèle dans leurs propres applications ou services. Voici le processus de base et la signification des paramètres pour générer des images à l'aide des interfaces API DALL·E 3 et DALL·E 2 :
curl -X POST https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer VOTRE_CLÉ_API" \
-H "Content-Type: application/json" \
-d '{
"model": "dall-e-2", # Version du modèle, peut être "dall-e-3" ou "dall-e-2".
"prompt": "Description textuelle", # Texte utilisé pour générer l'image.
"n": 1, # Nombre d'images à générer.
"size": "1024x1024", # Taille de l'image.
"quality": "standard" # Qualité de l'image, peut être "hd".
}'
-
model
: Spécifie la version du modèle DALL·E à utiliser. -
prompt
: Fournit la description textuelle pour le modèle, qu'il utilise pour générer des images. -
n
: Spécifie le nombre d'images à générer. DALL·E 3 peut générer seulement 1 image à la fois, tandis que DALL·E 2 peut en générer jusqu'à 10 simultanément. -
size
: Taille de l'image générée. Pour dall-e-2, elle doit être l'une des tailles suivantes : 256x256, 512x512, ou 1024x1024. Pour dall-e-3, elle doit être l'une des tailles suivantes : 1024x1024, 1792x1024, ou 1024x1792. -
quality
: Définit la qualité de l'image générée.standard
pour une qualité standard,hd
pour une qualité haute définition.
3. Édition d'images et Génération de Variantes (Uniquement pour DALL·E 2)
3.1. Édition d'images (Modification ou Expansion d'images)
Avec la fonction d'édition d'images de DALL·E 2, vous pouvez télécharger une image et son masque correspondant. Les zones transparentes dans le masque indiquent les parties à éditer, et le modèle générera du contenu dans ces zones en fonction des nouvelles indications textuelles. Cette fonction peut créer de nouveaux éléments différents des éléments d'image d'origine, permettant ainsi de générer des versions éditées.
Poursuivez en utilisant l'exemple de requête API avec la commande curl :
curl -X POST https://api.openai.com/v1/images/edits \
-H "Authorization: Bearer VOTRE_CLÉ_API" \
-H "Content-Type: multipart/form-data" \
-F "model=dall-e-2" \
-F "prompt=Nouvelle description textuelle" \
-F "image=@/chemin_votre_image_originale.png" \
-F "mask=@/chemin_votre_masque.png" \
-F "n=1" \
-F "size=1024x1024"
-
image
: fichier contenant l'image d'origine. -
mask
: fichier contenant le masque, où la zone transparente indique la région à traiter par le modèle. -
prompt
: nouvelle indication textuelle décrivant l'intégralité du contenu de la nouvelle image, pas seulement la zone effacée.
Il est important de noter que l'image d'origine et le masque téléchargés doivent être des images PNG carrées, ne dépassant pas 4 Mo et ayant les mêmes dimensions.
Exemple :
curl https://api.openai.com/v1/images/edits \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-F image="@sunlit_lounge.png" \
-F mask="@mask.png" \
-F model="dall-e-2" \
-F prompt="Un espace de repos intérieur éclairé par le soleil avec une piscine et un flamand à l'intérieur" \
-F n=1 \
-F size="1024x1024"
Image d'origine
Image du masque
Image générée
3.2. Génération de variantes d'images
L'utilisation de DALL·E 2 pour générer des variantes d'images commence par une image existante pour créer quelques versions différentes en contenu ou en style. Cette fonction peut être utilisée pour explorer différentes possibilités d'une image ou pour une évolution créative.
De même, utilisez la commande curl pour envoyer une requête API :
curl -X POST https://api.openai.com/v1/images/variations \
-H "Authorization: Bearer VOTRE_CLÉ_API" \
-H "Content-Type: multipart/form-data" \
-F "image=@/chemin_votre_image.png" \
-F "n=2" \
-F "size=1024x1024"
-
image
: fichier contenant l'image d'origine pour laquelle des variantes doivent être générées. -
n
: le nombre de variantes à générer, pouvant être contrôlé à l'aide de ce paramètre.
Comme précédemment, l'image d'entrée doit être un fichier PNG carré, plus petit que 4 Mo.