1. Giới thiệu về Mô hình DALL·E

Mô hình DALL·E của OpenAI là một hệ thống trí tuệ nhân tạo có khả năng tạo ra hình ảnh từ các yêu cầu văn bản. Tính năng của nó bao gồm sao chép hình ảnh đơn giản đến việc sáng tạo lại các cảnh được mô tả trong văn bản. Tên "DALL·E" là sự kết hợp của họa sĩ Salvador Dalí và nhân vật hoạt hình WALL·E, tượng trưng cho sự giao cắt giữa nghệ thuật và tự động hóa.

Mô hình DALL·E được đào tạo thông qua học sâu để hiểu các yêu cầu văn bản và chuyển đổi chúng thành các biểu thị hình ảnh. Cho dù đó là nhiếp ảnh, hội họa, nghệ thuật kỹ thuật số, hoặc bất kỳ hình thức hình ảnh nào khác, DALL·E đều có thể tạo ra các hình ảnh tương ứng dựa trên các mô tả.

2. Sử dụng Cơ Bản của Mô hình tạo ảnh DALL·E

OpenAI cung cấp giao diện API cho DALL·E, cho phép các nhà phát triển tích hợp mô hình vào ứng dụng hoặc dịch vụ của họ. Dưới đây là quá trình cơ bản và ý nghĩa của các tham số để tạo ra hình ảnh bằng cách sử dụng giao diện API DALL·E 3 và DALL·E 2:

curl -X POST https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "dall-e-2", # Phiên bản mô hình, có thể là "dall-e-3" hoặc "dall-e-2".
        "prompt": "Yêu cầu Văn bản", # Văn bản được sử dụng để tạo ra hình ảnh.
        "n": 1, # Số lượng hình ảnh cần tạo ra.
        "size": "1024x1024", # Kích thước của hình ảnh.
        "quality": "standard" # Chất lượng hình ảnh, có thể là "hd".
      }'
  • model: Chỉ định phiên bản của mô hình DALL·E sử dụng.
  • prompt: Cung cấp yêu cầu văn bản cho mô hình, mà nó sử dụng để tạo ra hình ảnh.
  • n: Chỉ định số lượng hình ảnh cần tạo ra. DALL·E 3 chỉ có thể tạo ra 1 hình ảnh vào một thời điểm, trong khi DALL·E 2 có thể tạo ra đến 10 hình ảnh cùng một lúc.
  • size: Kích thước của hình ảnh được tạo ra. Đối với dall-e-2, phải là một trong số 256x256, 512x512, hoặc 1024x1024. Đối với dall-e-3, phải là một trong số 1024x1024, 1792x1024, hoặc 1024x1792.
  • quality: Đặt chất lượng của hình ảnh được tạo ra. standard cho chất lượng tiêu chuẩn, hd cho chất lượng siêu cao.

3. Chỉnh Sửa và Tạo Ra Biến Thể Hình Ảnh (Chỉ DALL·E 2)

3.1. Chỉnh sửa Ảnh (Chỉnh sửa hoặc Mở rộng Ảnh)

Với tính năng chỉnh sửa ảnh của DALL·E 2, bạn có thể tải lên một ảnh và mặt nạ tương ứng của nó. Các vùng trong suốt trong mặt nạ chỉ ra phần cần chỉnh sửa và mô hình sẽ tạo nội dung trong các vùng này dựa trên các yêu cầu văn bản mới. Tính năng này có thể tạo ra các yếu tố mới khác biệt so với các yếu tố ảnh gốc, từ đó tạo ra các phiên bản được chỉnh sửa.

Tiếp tục sử dụng ví dụ yêu cầu API với lệnh curl:

curl -X POST https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "model=dall-e-2" \
  -F "prompt=Mô tả văn bản mới" \
  -F "image=@/đường_dẫn_đến_ảnh_gốc_của_bạn.png" \
  -F "mask=@/đường_dẫn_đến_mặt_nạ_của_bạn.png" \
  -F "n=1" \
  -F "size=1024x1024"
  • image: tệp chứa ảnh gốc.
  • mask: tệp chứa mặt nạ, nơi vùng trong suốt chỉ ra khu vực được xử lý bởi mô hình.
  • prompt: yêu cầu văn bản mới mô tả toàn bộ nội dung của ảnh mới, không chỉ khu vực bị xóa.

Lưu ý rằng ảnh gốc và mặt nạ tải lên phải là ảnh PNG vuông, không vượt quá 4MB và có cùng kích thước.

Ví dụ:

curl https://api.openai.com/v1/images/edits \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F image="@sunlit_lounge.png" \
  -F mask="@mask.png" \
  -F model="dall-e-2" \
  -F prompt="Khu vực nghỉ ngơi trong nhà ngập nắng với hồ bơi và một con chim hồng hạc bên trong" \
  -F n=1 \
  -F size="1024x1024"

Ảnh Gốc Ảnh Mặt nạ Ảnh Tạo ra

3.2. Tạo Ra Phiên Bản Ảnh

Sử dụng DALL·E 2 để tạo ra các phiên bản ảnh bắt đầu từ một ảnh hiện có để tạo ra một số phiên bản khác nhau về nội dung hoặc phong cách. Tính năng này có thể được sử dụng để khám phá các khả năng khác nhau của một ảnh hoặc cho sự phát triển sáng tạo.

Tương tự, sử dụng lệnh curl để gửi yêu cầu API:

curl -X POST https://api.openai.com/v1/images/variations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "image=@/đường_dẫn_đến_ảnh_của_bạn.png" \
  -F "n=2" \
  -F "size=1024x1024"
  • image: tệp chứa ảnh gốc mà các phiên bản sẽ được tạo ra.
  • n: số lượng phiên bản cần tạo ra, có thể điều khiển bằng tham số này.

Tương tự như trước, ảnh đầu vào phải là tệp PNG vuông, nhỏ hơn 4MB.