Vision Model (GPT-4-Vision) Preview

1. GPT-4 Vision Model کی تعارف

GPT-4 Vision model (GPT-4V) ایک ملٹی موڈل ، جو کے اوپن اے آئی نے متعارف کروایا ہے، ہے۔ یہ ماڈل وہ تصویری سمجھ کے قابلیتوں کو GPT-4 پر مبنی کرکے ہے۔ روایتی متن کی ترتیبات کے بخلاف، GPT-4V تصویری مواد کو موصول کرکے اور اس کا تجزیہ کرکے، تصاویر سے متعلق وضاحت فراہم کرکے، سوالات کا جواب دیتے ہیں، اور تصاویر سے متعلق تعلقات میں شریک ہو سکتے ہیں۔

مثال کے استعمالات:

پروڈکٹ کی شناخت اور ترتیب: میندی پلیٹ فارمز GPT-4V کو استعمال کرکے مصنوعات کی تصاویر کی شناخت کرکے، تفصیلات فراہم کرکے، تلاش اور تجاویز کے نظام کو بہتر بنانے میں مدد مل سکتی ہے۔
طبی فیصلے کی مدد: جبکہ GPT-4V صرف صحت کی مصنوعی تصویری تشخیص کے لئے مناسب نہیں ہے، لیکن یہ طبی اہلکاروں کو ابتدائی تصویر کی سمجھ اور ڈیٹا کی ترتیب میں مدد کرسکتا ہے۔
تعلیم اور تحقیق: تدریس اور سائنسی تحقیق میں، GPT-4V کو چارٹس، تجربے کے نتائج کی تجزیہ کرنے اور خود بخود سائنسی تصویری ڈیٹا کو تشریح کرنے کے لئے استعمال کیا جاسکتا ہے۔
ٹریفک کی نگرانی اور تجزیہ: ٹریفک کی نگرانی کی تصویریں تجزیہ کرکے، GPT-4V عوامی انصافی نظاموں کو حقیقت میں حالت کی رپورٹ کرنے اور حادثے کی شناخت میں مدد کرسکتا ہے۔

2. سادہ مثال

نیچے ایک سادہ مثال دی گئی ہے جس میں CURL درخواست کا استعمال کرکے دکھایا گیا ہے کہ کیسے GPT-4 Vision model کو تصاویر کا تجزیہ کرنے کے لئے استعمال کیا جاتا ہے۔

API درخواست کے مقامات:

model: اس ماڈل کی ورژن مخصوص کرتا ہے، اس صورت میں "gpt-4-vision-preview"۔
messages: رول کی احاطہ میں نقشوں کا تعین ہوتا ہے اور اس میں مواد، جو متن اور تصویر کے لنکس شامل ہوسکتے ہیں، ہوتا ہے۔
max_tokens: متن تخلیق کرنے کی زیادہ سے زیادہ لمبائی کی حد کو مخصوص کرتا ہے۔

CURL درخواست کی مثال:

کرل https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Is tasveer mein kya hay?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "آپ کی تصویر کا لنک"
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

اُوپر دی گئی درخواست کے ساتھ، ہم نے GPT-4 Vision model کو ایک تصویر فراہم کی اور ایک سادا سا سوال کیا: "Is tasveer mein kya hay?" ماڈل تک تصویر کے مواد کا تجزیہ کرے گا اور تصویر کے مواد کے مطابق ایک جواب دیگا۔

3. Base64 Encoding کا استعمال کرکے تصاویر اپلوڈ کریں

کچھ مواقع پر، آپ کو GPT-4 Vision model میں ایک مقامی تصویر فائل اپلوڈ کرنے کی ضرورت ہو سکتی ہے۔ ایسی صورت میں، ہم بیس64 انکوڈنگ کا استعمال کرکے اس تصویر کی ڈیٹا کو API درخواست میں شامل کرسکتے ہیں۔

پایتھن کوڈ کی مثال:

import base64
import requests

api_key = "آپ کی اوپن اے آئی این پی کی"

def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

image_path = "آپ کی تصویر کا راستہ.jpg"

base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Is tasveer mein kya hay?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

اُوپر دیے گؓ کوڈ میں، ہم پہلے ایک مقامی تصویر فائل کو بیس64 انکوڈ کی سٹرنگ میں تبدیل کرتے ہیں، پھر اس سٹرنگ کو API کے ایک حصے کے طور پر درخواست بھیجتے ہیں۔ ماڈل کا جواب تصویر کے مواد کی تفصیلات کا مواد فراہم کرتا ہے۔

4. متعدد تصاویر کے انپٹس کی دیکھ بھال

کبھی کبھی متعدد تصاویر کا تجزیہ کرنا ضروری ہوتا ہے۔ GPT-4 Vision model متعدد تصویر کے انپٹس دریافت کرنے کا امکان فراہم کرتا ہے اور صارفوں کو ان تصاویر کے بارے میں سوال کرنے یا ان کے فرقات کی موازنہ کرنے کی اجازت دیتا ہے۔

curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "ان تصاویر میں کیا فرق ہے؟"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "پہلی تصویر کا URL",
            }
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "دوسری تصویر کا URL",
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

اس درخواست میں ہم نے API کو دو تصاویر فراہم کی ہیں۔ ماڈل ہر تصویر کو الگ الگ تجزیہ کرے گا اور سوالات کی بنیاد پر وضاحتیں اور موازنے فراہم کرے گا۔ یہ ترکیب تصاویر کی کلی تجزیہ کے لئے مثالی ہے۔

5. تصویری تجزیہ کی تفصیل درجہ بندی کرنا

GPT-4 ویژن ماڈل کا استعمال کرتے وقت، آپ اپنی ضروریات کے مطابق تفصیل درجہ بندی کر سکتے ہیں۔ detail پیرامیٹر کو ترتیب دیتے ہوئے آپ low، high یا auto میں سے کسی ایک کا انتخاب کر سکتے ہیں۔ یہاں ہر اختیار کی تفصیل سے متعلق ایک مفصل بیان ہے اور اس کو کیسے ترتیب دیا جائے:

low: کم تفصیل درجہ کو منتخب کرنے سے "ہائی ریزولیشن" ماڈل غیر فعال ہوگا۔ یہ ماڈل 512 پکسل x 512 پکسل کی کم تفصیل والی ورژن کی تصویر کوقبول کرے گا اور تصویر کو ظاہر کرنے کے لئے 65 ٹوکنز کا خرچ کرے گا۔ یہ وقت کے اندر جواب دینے اور کم ان پٹ ٹوکن استعمال کرنے کے مناسب ہے۔
high: زیادہ تفصیل درجہ ماڈل کو پہلے ایک کم تفصیل کی تصویر دکھائی دیں گی اور پھر تصویر کے سائز کے مطابق 512 پکسل کے گرڈ میں تفصیل سے کرائی گئی ورژن بنائیں گی۔ ہر تفصیل سے کرائی گئی ورژن 129 ٹوکنز کا خرچ کرے گی (یعنی ہر ڈیفالٹ کراپ کے 65 ٹوکنز)۔
auto: خود بخودی تفصیل درجہ وفق سے تصویر کے سائز کے مطابق low یا high درجہ بندی کرے گا۔

نیچے دی گئی کوڈ مثال میں دکھایا گیا ہے کہ کیسے تفصیل درجہ ترتیب دیا جائے:

import base64
import requests

api_key = "آپ کی OPENAI_API_KEY"

image_path = "آپ کی تصویر کا راستہ.jpg"

base64_image = base64.b64encode(open(image_path, "rb").read()).decode('utf-8')

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "اس تصویر میں کیا ہے؟"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}",
            "detail": "high"  # زیادہ تفصیل درجہ ترتیب دیا گیا ہے
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

6. ماڈل کی حدود کو سمجھنا اور تصاویر کا انتظام

6.1. ماڈل کی حدود

GPT-4 ویژن ماڈل کی طاقتور فعالیت کے باوجود، اس کی کچھ حدود ہیں، اور یہ حدود سمجھنا تصویر کی سمجھنے کے لئے استعمال کرنے کے لئے اہم ہے۔ یہاں کچھ معروف پابندیوں کا جائزہ دیا گیا ہے:

طبی تصاویر: ماڈل طبی مشاہدات جیسے CT اسکینز وغیرہ کے لئے مناسب نہیں ہے، اور یہ طبی مشورہ کے لئے استعمال نہیں ہونا چاہئے۔
غیر انگریزی متن: ماڈل غیر لاطینی الفابیٹ ٹیکسٹ جیسے جاپانی یا کورین شامل کردہ تصاویر کو پراسرار رواں نہیں کر سکتا ہے۔
فضائی مقامات: ماڈل کا کردار بنانے والے ٹاسکس کی فی الوقت ضیاع سے متعلق کاموں میں، مثلاً شطرنج کی بورڈ پر پیسوں کی مواقع کو تشخیص کرنے والی کارکردگی کمزور ہوسکتی ہے۔
تصویر کی تفصیلات: ماڈل کی سکیم چارٹ یا رنگ اور طریقہ کے تبدیلیاں رکھنے والے متن یا کاشتیوں کو سمجھنے میں مشکلات ہوسکتی ہیں۔
تصویر کی روٹیشن: ماڈل سیدھے یا الٹے ہوئے متن یا تصاویر کو غلط طریقے سے تشخیص کرسکتا ہے۔

### 6.2 سیشنز میں تصاویر کا انتظام

چیٹ کمپلیشنز API غیر مستقل ہونے کی وجہ سے، آپ کو ماڈل کو گزرنے والے پیغامات (شامل تصاویر) کا خود انتظام کرنا ہوگا۔ اگر آپ ایک ہی تصویر کو متعدد مرتبہ استعمال کرنا چاہتے ہیں، تو ہر API درخواست کے ساتھ تصویر کے ڈیٹا کو دوبارہ بھیجنا ہوگا۔

```python
additional_payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "اس تصویر کے بنیاد پر، آپ کیا تجاویز دیتے ہیں؟"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

new_response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=additional_payload)

print(new_response.json())

7. لاگت کی گنتی

ہر تصویر جو تفصیل: کم اختیار کرتے ہیں، ایک مقررہ 85 ٹوکنز استعمال کرتی ہے۔ تفصیل: زیادہ اختیار کرنے والی تصویر میں، پہلے تصویر کو بدرض اصولی 2048x2048 پکار کر کم کیا جاتا ہے، اور پھر تصویر کی کمترین طرف 768px ہونے کا یقینی بنایا جاتا ہے۔ تصویر کو متعدد 512px چوکوروں میں تقسیم کیا جاتا ہے، ہر چوکور کو 170 ٹوکنز استعمال ہوتے ہیں، اور ان کی تعداد کے اختتامی مجموعہ میں 85 ٹوکنز شامل کیے جاتے ہیں۔

مثال کے طور پر، اگر ایک تصویر کے طول و عرض 1024x1024 ہیں اور تفصیل: زیادہ اختیار کیا گیا ہے، تو ٹوکن کی لاگت یوں ہوگی:

پہلے، کیونکہ 1024، 2048 سے کم ہے، لہذا کوئی ابتدائی سائز کی ترتیب نہیں ہوگی۔
پھر، جب چوڑائی 1024 ہو رہی ہوتی ہے، تصویر کو 768x768 میں تبدیل کیا جاتا ہے۔
تصویر کو ظاہر کرنے کیلئے 4 عدد 512px چوکور درکار ہوتے ہیں، لہذا اختتامی ٹوکن کی لاگت 170 * 4 + 85 = 765 ہوگی۔

لاگت کی گنتی کے تفصیلات کے لئے، براہ کرم GPT-4 Vision ماڈل کی ہدایات کے لئے دستاویزات کا مطالعہ کریں۔

8. عام سوالات

نیچے کچھ عام سوالات اور ان کے جوابات ہیں جو صارفین GPT-4 Vision ماڈل کا استعمال کرتے وقت مواجہ ہوسکتے ہیں:

سوال: کیا میں `gpt-4` کی تصویر کی صلاحیتوں کو فائن-ٹیون کر سکتا ہوں؟

جواب: فی الحال، ہم gpt-4 کی تصویر کی صلاحیتوں کو فائن-ٹیون کا حمایت نہیں کرتے ہیں۔

سوال: کیا میں `gpt-4` کا استعمال کرکے تصاویر بنا سکتا ہوں؟

جواب: نہیں، آپ dall-e-3 کو استعمال کرکے تصاویر بنا سکتے ہیں اور gpt-4-vision-preview کو تصاویر سمجھنے کے لئے استعمال کر سکتے ہیں۔

سوال: کون سی قسم کی فائل اپ لوڈ معتمد ہیں؟

جواب: ہم فی الحال PNG (.png)، JPEG (.jpeg اور .jpg)، WEBP (.webp)، اور غیر توانا GIF (.gif) فائلوں کا حمایت کرتے ہیں۔