ایمبیڈنگ (متن کی ایمبیڈنگ)

1. تشریح بمعنی

1.1. بمعنی کیا ہوتے ہیں

بمعنی، مشین لرننگ کے شعبے میں، خاص طور پر زبانی فراہمی مسائل کا حل کرنے میں ایک تکنیک ہے جو مواد متنی کو عددی سرخیوں میں تبدیل کرنے کی تکنیک ہے۔ انسانی زبان میں، الفاظ اور جملوں کا مطلب ان کے سیاق وسباق اور استعمال سے تعین ہوتا ہے۔ بمعنی کا مقصد یہ ہے کہ لغتی اکائیوں کا معنوی پہلو کو دبوچنا ہے، جوکہ کمپیوٹر کو ان کو سمجھنے اور ان کی پراسس کرنے کی اختیار کرے۔

بمعنی کے بنیادی خیال کا یہ ہے کہ مشابہ معانی والے الفاظ کو ریاضی فضائی میں قریبی نقطوں پر نقش کرنا، الفاظ کو ایک بلند بعد کے فضائی نقائص میں نقطوں کے طور پر پیش کرنا ہے۔ اس طرح، معنوی معانی کے نزدیک الفاظ (مثال کے طور پر"بادشاہ" اور "ملکہ") فضائی فضہ میں قریب ہوں گے۔ بمعنی عموماً فلوٹنگ پوائنٹ ایکسسس سے تشکیل دیا جاتا ہے، جو اختلافی متن قطعات (جیسے "کتا" اور "سگ") کو بھی مشابہ بمعنی تصویر دے سکتے ہیں۔

مشورہ: اپلیکیشن ڈویلپر کے طور پر، آپ بس سمجھ سکتے ہیں کہ دو متن جملوں کے مشابہ معانی کے بمعنی سمکتا شباز اچھا ہے۔

1.2. بمعنی کے اطلاقات

بمعنی مختلف مناظر میں وسیع پیمانے پر استعمال ہوتے ہیں، یہاں کچھ اہم استعمالات ہیں:

تلاش: تلاش کے نتائج کو ترتیب دینے کے لئے بمعنی خصوصیات کا استعمال کرنا جو پوئنٹ ڈیٹا کو ریلیونس کے مطابقت کے بنیاد پر کرتا ہے۔
گروہ بندی: بمعنی، معنوی طور پر مشابہ متن قطعوں کی شناخت اور کٹاو کرنے میں مدد فراہم کر سکتا ہیں۔
تجویزی سسٹمز: مشابہت پر مبنی چیزوں کی تجویز نبود اور پراسس کرنا، معلوم ہو سکتا ہے اور دوسری چیزوں کی تجویز کرنا۔
انومیلی ڈیٹیکشن: بمعنی کا استعمال اصولی طور پر مختلف ڈیٹا پوائنٹس کو شناخت کرنے کے لئےی کیا جا سکتا ہے جو مرکزی ڈیٹا سیٹ سے بہت مختلف ہوں۔
متن کی مشابہت کی پیمائش: بمعنی کا استعمال مختلف متن کی درمیان مشابہت تقسیم کوتجویز کرنے کے لئے کیا جا سکتا ہے۔
تصنیف: معلوم شدہ لیبل بمعنی ہر گزر ٹسکسٹ کو سب سے مشابہ زمرہ میں تصنیف کرنے کے لئےافدرو س پر مقابلے کرنے کے لیے مشابہت کے سیٹ کے ساتھ تلاش کرنا۔

2. "اوپن ای آئی" بمعنی کی تشریح

2.1. "اوپن ای آئی" بمعنی ماڈلز کی مختصر تشریح

اوپن ای آئی تیسری نسل کے بمعنی ماڈلز فراہم کرتا ہے، جن میں text-embedding-3-small اور text-embedding-3-large شامل ہیں۔ یہ ماڈلز اوپن ای آئی کی انوکھی گہرے لرننگ ٹیکنالوجی پر بنے ہوئے ہیں، جو کہ بہت متعدد زبانی کارکردگی فراہم کرنے کے امکان کے ساتھ ساتھ کم لاگت کرنے کی کوشش کرتے ہیں۔

یہ ماڈلز بمعنی کے پراسس میں انوکھے خصوصیات رکھتے ہیں۔ مثال کے طور پر، text-embedding-3-small 1536 بعدی بمعنی ویکٹر فراہم کرتا ہے، جبکہ text-embedding-3-large نے مرکب 3072 بعدی بمعنی ویکٹرز فراہم کرتا ہے تاکہ زیادہ پیچیدہ متن کی خصوصیات کو کور کیا جا سکے۔ پیرامیٹر کی تعدیل کرکے، بمعنی فضا کے بعد کو اپلیکیشن منظر کے خصوصیات کو پورا کرنے کیلئے نظم کیا جا سکتا ہے۔

2.2. ماڈل کا انتخاب اور استعمال

مناسب بمعنی ماڈل کا انتخاب مخصوص ہائے اپلیکیشن کی مطلوبہ خصوصیات پر منحصر ہوتا ہے۔ یہاں کچھ اہم حالات میں اس کا انتخاب کیسے کرنا ہوتا ہے:

پرفارمنس پرمائس کے مناظر: اگر آپ کو زیادہ تفصیلی مشابہ معانی کی معلومات کو قبض کرنے کی ضرورت ہو، مثال کے طور پر، فائن-گرینڈ تجویزی سسٹمز یا باہتر دقت والی متن کلاسیفائیکیشن کے لئے عموماً text-embedding-3-large کا استعمال کرنا مشورا دیا جاتا ہے۔ اگرچہ یہ چھوٹے ماڈلز سے زیاد غہری معنی خصوصیات فراہم کرتا ہے، لیکن یہ گراہک کے یہ سنگین ہوتا ہے۔
لاگت کی حساس آوازیل: بڑی مقدار میں ڈیٹا کے معالجے کیلئے استعمال ہونے والے اپلیکیشن کی مناظر میں، جو کہ خاص طور پر بلند دقت کی ضرورت نہیں ہوتی، مثلاً ابتدائی ڈیٹا کا تفتہ یا تیز رفتاری پروٹوٹائپنگ،text-embedding-3-small مختصر نرخ کا بہترین انتخاب ہوتا ہے۔ یہ ریلیٹو کم لاگت برقرار رکھتے ہوئے، بھی تصاویر خصوصیات والا پرفارمنس فراہم کرتا ہے۔
متعدد زبانی ماحولات: یہ بمعنی ماڈلز متعدد زبانی کارکردگی کے ساتھ مکمل ہے، جو کہ خصوصی طور پر کراس لنگوال یا متعدد زبانی منظر کے لیے مفید ہوتا ہے۔ اس کیلئے یہ ایک ایدل چائس ہوتا ہے۔

درست بمعنی ماڈل کا انتخاب خصوصی ضروریات، ڈیٹا پیچیدگی، اور پرفارمنس اور لاگت کے مابین مطلوبہ توازن کے حوالے سے منحصر ہوگا۔

3.1 Embeddings API کے ذریعے `curl` استعمال کرنا

curl ایک عام استعمال ہونے والا کمانڈ-لائن ٹول ہے جو HTTP درخواستیں بھیجنے کے لئے استعمال ہوتا ہے۔ مندرجہ ذیل مثال میں دکھایا گیا ہے کہ curl کی مدد سے متن کا امبیڈنگ تصویر حاصل کرنے کیسے ہوتا ہے:

curl https://api.openai.com/v1/embeddings \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer $OPENAI_API_KEY" \
    -d '{
        "input": "Machine learning is a branch of artificial intelligence.",
        "model": "text-embedding-3-small"
    }'

اوپر دی گئی کمانڈ میں $OPENAI_API_KEY متغیر کی بجائے صارف کی اوپن اے اے پی آئی کی کی قیمت شامل ہونی چاہئے۔

اس کمانڈ کو اجراء کرنے کے بعد، اوپن اے اے پی کا Embeddings ایپی رجوعی میں متن امبیڈنگ کی تصویر واپس کرے گا۔ یہاں ایک ای پی ای کال کے نتیجے کا مثال دی گئی ہے:

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "index": 0,
      "embedding": [  // یہاں فیچر ویکٹر ہے
        -0.006929283495992422,
        -0.005336422007530928,
        ...  // باقی اعداد دکھانے کیلئے نہیں ہیں
        -4.547132266452536e-05,
        -0.024047505110502243
      ]
    }
  ],
  "model": "text-embedding-3-small",
  "usage": {
    "prompt_tokens": 5,
    "total_tokens": 5
  }
}

3.2 Embeddings API بلکل کرینا

curl کی مدد سے ای پی ای کو کمانڈ لائن سے سیدھی طور پر کال کرنے کے علاوہ، آپ Python کلائنٹ بھی استعمال کرسکتے ہیں۔ یہ کرنے کے لئے پہلے ضروری ہے کہ آپ official openai لائبریری انسٹال کریں۔ یہاں ایک مثال دی گئی ہے کہ پائتھن کی مدد سے ٹیکسٹ امبیڈنگ حاصل کرنی کیسے ہوتی ہے:

import openai

openai.api_key = 'آپ کی اوپن اے اے پی کی کی'
  
response = openai.Embedding.create(
  input="Artificial intelligence is changing the world.",
  model="text-embedding-3-small"
)

embedding_vector = response['data'][0]['embedding']
print(embedding_vector)

اس پایتھن اسکرپٹ کو چلانے سے، آپ کو curl کا استعمال کرتے وقت مشابہ ایکسٹریکٹ ملے گا۔ یہ ویکٹر ایک فلوٹنگ پوائنٹ نمبرز کی فہرست ہوتی ہے، جو امبیڈنگ اسپیس میں دی گئی متن کی عددی تصویر کو ظاہر کرتی ہیں۔

کال کا نتیجہ مندرجہ ذیل ہے:

[-0.0032198824, 0.0022555287, ..., 0.0015886585, -0.0021505365]

3.2 امبیڈنگ ویکٹر کا استعمال

OpenAI صرف ایمبیڈنگ ٹیکسٹ ویکٹرائزیشن ماڈل فراہم کرتا ہے۔ اگر آپ امبیڈنگ کا استعمال کر کے مقصد مثلاً ٹیکسٹ مماثلت تلاش کرنا چاہتے ہیں تو آپ کو ویکٹر ڈیٹابیسوں کے بارے میں جاننا چاہئے، مثلاً Qdrant، Chroma، اور Milvus۔

براہ کرم مندرجہ ذیل ویکٹر ڈیٹابیس ٹیوٹوریال کا حوالہ دیں: