Vision মডেল (GPT-4-ভাবনা) পূর্বরূপ

1. GPT-4 Vision Model এর পরিচিতি

GPT-4 Vision model (GPT-4V) হলো OpenAI দ্বারা প্রস্তুত একটি বহুমোদালিক কৃত্রিম বুদ্ধিমত্তা মডেল, যা GPT-4 এর ভিত্তিতে ভিজুয়াল বুঝতে সক্ষম। প্রথমবারের মত পাঠ্য প্রসেসিং মডেলগুলোর বিপরীতে, GPT-4V ছবি সামগ্রী গ্রহণ এবং বিশ্লেষণ করতে সক্ষম, যা ছবিসম্পর্কিত বর্ণনা সরবরাহ, প্রশ্নের উত্তর দেওয়া এবং ছবিসম্পর্কিত পরিকল্পনা করা যায়।

উদাহরণ ব্যবহার:

**পণ্যের চিহ্নিকরণ এবং শ

curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "এই ছবিগুলিতে কি অদৃশ্য?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "প্রথম ছবির URL",
            }
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "দ্বিতীয় ছবির URL",
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

এই অনুরোধে, আমরা API-তে দুটি ছবি দাখিল করি। মডেলটি প্রতিটি ছবিকে বিশ্লেষণ করবে এবং প্রশ্নের ভিত্তিতে বর্ণনা এবং তুলনা প্রদান করবে। এই পদ্ধতি ছবি সংগ্রহের মোটামুটি বিশ্লেষণের জন্য আদর্শ।

৫. ছবি বিশ্লেষণের বিস্তারিত স্তর সেট করা

GPT-4 ভিজ্যুয়াল মডেল ব্যবহার করার সময়, আপনি আপনার প্রয়োজনীয়তা অনুযায়ী বিস্তারিত স্তর সেট করতে পারেন। detail প্যারামিটারটি পরিষ্কার করে, আপনি low, high, বা auto এর মধ্যে একটি চয়ন করতে পারেন। এখানে প্রতিটি অপশনের বিস্তারিত ব্যাখ্যা এবং এটি সেট করার জন্য একটি বিস্তারিত স্থাপনা দেওয়া আছে:

low: নিম্ন স্তর নির্বাচন করা হলে "হাই-রেজোলিউশন" মডেল অক্ষম করা হবে। এই মডেলটি ছবির একটি নিম্ন রেজোলিউশন সংস্করণ 512 পিক্সেল x 512 পিক্সেল পেয়ে এবং ছবিকে প্রতিনিধিত্ব করতে 65 ভাণ্ডার বাজেট ব্যবহার করবে। এটি উচ্চ বিশদতা প্রয়োজন না থাকা সত্তে দ্রুত প্রতিক্রিয়া ও ইনপুট ভাণ্ডার কম করার সহায়ক।
high: উচ্চ বিশদতা স্তর মডেলকে প্রথমে একটি নিম্ন রেজোলিউশন ছবি দেখানো দেওয়ার পর, এবং তারপর ইনপুট ছবির আকারের ভিত্তিতে একটি বিস্তৃত ক্রপ ভার্সন তৈরি করতে দেয়। প্রতিটি বিস্তারিত ক্রপটি দিক পরিবর্তনের সাথে প্রতিনিধিত্ব করা হয় 129 ভাণ্ডারের ডাবল বাজেটে (অর্থাৎ, প্রতিটি ডিফল্ট ক্রপ প্রতি ডিফল্ট ক্রপে 65 টোকেন)।
auto: স্বয়ংক্রিয় বিস্তারিত স্তর উপযোগী ছবির আকারের ভিত্তিতে low বা high বিস্তারিত স্তর ব্যবহার করতে নির্ধারণ করবে।

নীচের কোড উদাহরণ দেখায় যে ভাবে বিস্তারিত স্তর সেট করা হয়:

import base64
import requests

api_key = "আপনার_OPENAI_API_KEY"

image_path = "আপনার_ছবির_পাথ.jpg"

base64_image = base64.b64encode(open(image_path, "rb").read()).decode('utf-8')

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "ছবিতে কি আছে?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}",
            "detail": "high"  # উচ্চ বিস্তারিতা স্তরে সেট করুন
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

৬. মডেলের মেয়াদগুলি বোধ করা এবং ছবিগুলি পরিচালনা করা

৬.১. মডেলের মেয়াদ

GPT-4 ভিজ্যুয়াল মডেলের শক্তিশালী কাজের পরিবর্তে, এটির কিছু সম্পর্কিত সীমাবদ্ধতা আছে, এবং এই সীমাগুলি বুঝতে গুরুত্বপূর্ণ যাতে উপযোগ করা যায় ছবি বোঝার জন্য। এখানে কিছু পরিচিত সীমার একটি সংক্ষিপ্ত সংক্ষেপ দেয়া হল:

চিকিৎসায় ছবি: মডেলটি প্রোফেশনাল চিকিৎসা সম্পর্কিত ছবিগুলি, যেমন সি টি স্ক্যান, বোঝার জন্য উপযোগী নয়, এবং চিকিৎসা পরামর্শের জন্য ব্যবহার করা উচিত নয়।
অ-ইংরেজি টেক্সট: মডেলটি অ-ল্যাটিন বর্ণমালা পাঠ সম্পদ ছবি প্রস্তুতি করতে অনুপযুক্ত হতে পারে, যেমন জাপানি বা কোরিয়ান বর্ণমালা রয়েছে।
স্থানিক অবস্থান: মডেলের সঠিক স্থানের অনুবন্ধি সংযোগসম্বন্ধীয় কাজের জন্য কাজের পারফর্মেন্স তারিয়ে থাকে, যেমন চেসবোর্ডের পাইসের অবস্থান সনাক্ত করা।
ছবির বিশদসমূহ: মডেলটি ছবিতে চার্ট বা রঙের এবং স্টাইলের পরিবর্তি সম্পর্কিত টেক্সট বোঝা সমান্তরাল লাইনে (যেমন, দশমিক রেখা, টিনট্রাক রেখা) সম্পর্কে সমস্যা সংকেত দিতে পারে।
ছবির ঘূর্ণন: মডেলটি সাড়া বা উল্টা পাঠ এবং ছবি ভ্রান্ত করতে পারে।

6.2 সেশনে চিত্র ব্যবস্থাপনা

চ্যাট সম্পূর্ণতা API অবস্থায়তনহীন হওয়ার কারণে, আপনাকে মডেলে পাঠানো বার্তা (চিত্র সহ) নিজেই ব্যবস্থা করতে হবে। যদি আপনি একই ছবি একাধিক বার ব্যবহার করতে চান, তাহলে প্রতি API অনুরোধে ছবির ডেটা পুনরায় পাঠাতে হবে।

additional_payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "এই ছবির ভিত্তিতে আপনার কোন পরামর্শ আছে?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

new_response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=additional_payload)

print(new_response.json())

7. খরচের গণনা

বিস্তার: কম অপশন ব্যবহার করা ছবি প্রতি নির্ধারিত 85 টোকেন অধিগ্রহণ করে। বিস্তার: উচ্চ অপশনের ছবি প্রথমে 2048px x 2048px মাত্রার সাথে অনুরূপ প্রমাণে স্কেলিং করা হয়, এবং তারপরে ছবির ছোট পাশে 768px বিন্দু নিশ্চিত করা হয়। ছবিটি তারপর 512px বর্গমূলে বিভাজিত হয়, প্রতি টোকেনে প্রতি বর্গমূল 170 টোকেন অধিগ্রহণ করবে, এবং চেষ্টা টোকেনে 85 টোকেন অধিগ্রহণ করা হবে।

উদাহরণস্বরূপ, যদি একটি ছবির মাত্রা 1024px x 1024px হয় এবং বিস্তার: উচ্চ অপশনটি বেছে নেওয়া হয়, তাহলে টোকেন খরচ হবে:

প্রথমত, 1024 থেকে কম হওয়ার কারণে, কোনও আদি মাপন প্রয়োজন নেই।
তারপর, ছোট পাশে 1024 থাকা দিয়ে, ছবিটি 768 x 768 মান পেয়েছে।
ছবিটি প্রতিনির্দিষ্ট করতে 4টি 512px বর্গমূল প্রয়োজন, এবং চেষ্টা টোকেনে 170 * 4 + 85 = 765 হবে।

খরচের গণনার বিস্তারিত বুঝতে, দয়া করে GPT-4 Vision মডেলের নথিটি দেখুন।

8. প্রয়োজনীয় প্রশ্নাবলী

এখানে, GPT-4 Vision মডেল ব্যবহার করতে সাধারণ প্রশ্ন এবং তাদের উত্তরের নিয়ে কিছু প্রশ্ন এবং তাদের উত্তর দেওয়া হয়েছে:

প্র: `gpt-4` এর চিত্র সম্প্রদায়গতা পরিষ্কার করতে পারি?

উ: বর্তমানে, আমরা gpt-4 এর চিত্র সম্প্রদায়গতা পরিষ্কার করার সমর্থন করি না।

প্র: আমি `gpt-4` ব্যবহার করে চিত্র জেনারেট করতে পারি?

উ: না, আপনি dall-e-3 ব্যবহার করতে পারেন ছবি উৎপাদন করার জন্য এবং gpt-4-vision-preview ব্যবহার করে ছবিগুলি বোঝার জন্য।

প্র: কোনগুলি ফাইল আপলোড সমর্থন করা হয়?

উ: আমরা বর্তমানে PNG (.png), JPEG (.jpeg এবং .jpg), WEBP (.webp) এবং অ্যানিমেটেড নয় GIF (.gif) ফাইলগুলি সমর্থন করি।