ملوس ویکٹر ڈیٹا بیس کیا ہے؟

ملوس 2019 میں تیار کیا گیا تھا جس کا موجودہ مقصد بڑے پیمانے پر پیدا کردہ گہرے نیورل نیٹ ورکس اور دیگر مشین لرننگ (ایم ایل) ماڈلز کی زیر حرا ج سے پیدا ہونے والے بہت بڑے تعبیر سیکھنے والے ویکٹرز کو ذخیرہ، انڈیکس اور منظم کرنے کا ہے۔

ملوس ایک ڈیٹا بیس ہے جو خصوصی طور پر ان پٹ یو ریکٹر کوئیریز کو ہینڈل کرنے کے لئے تصمیم کیا گیا ہے، ملوس میں اربوں کی حد تک ویکٹرز کو انڈیکس کر سکتا ہے۔ موجودہ تعلقاتی ڈیٹا بیسوں کی بجائے ملوس ان سٹرکچرڈ ڈ ٹا اور پیشہ وردانہ پیٹرنز کے ساتھ ہیں جو بنا ہوا ہے، ملوس ان سٹرکچرڈ ڈیٹا سے حاصل ہونے والے ویکٹرز کے ساتھ منظم کرنے کے لئے بنایا گیا ہے۔

انٹرنیٹ کی مسلسل توسیع کے ساتھ بے ساختہ ڈیٹا بڑھتا ہوا ہے، جس میں ای میل، پیپرز، آئٹمز کی ڈیٹا، فیس بک تصاویر، پروٹین سڑڂیر اور مزید شامل ہے۔ کمپیوٹر کو بے ساختہ ڈیٹا کو سمجھنے اور پراسس کرنے کے لئے، اس ڈیٹا کو ایمبیڈنگ ٹیکنیکس استعمال کرکے ویکٹرز میں میں بدل کرنا ہوتا ہے۔ ملوس اینٹڈیکس یورڈوز اور سی ہر دو ویکٹرز کے مابین مماثلت کی فاصلے ک نهں کمپیوٹ کرکے ان کا تشابہ آگے بیان کر سکتا ہے۔ اگر دو ایمبیڈنگ ویکٹرز بہت زیادہ مماثل ہوتے ہیں تو یہ دکھاتا ہے کہ اصل ڈیٹا کے ماخذ بھی مماثل ہیں۔

ملوس ورک فلو:

ورک فلو

کلیدی تصورات

اگر آپ ویکٹر ڈیٹا بیسز اور تشابہ تلاش کے عالم سے واقف نہیں ہیں، تو آپ کو نیچے دیے گئے مضامین کے کلیدی تصورات مددگار پیش آ سکتے ہیں۔

ملوس مصطلحات کے بارے میں مزید معلومات حاصل کریں۔

بے ساختہ ڈیٹا

تصوراتی ڈیٹا، شامل ہیں تصاویر، ویڈیوز، آڈیو اور طبیعی زبان، مخصوص نمونہ یا ترتیبات کو نہیں مانتا ہے۔ یہ قسم کی ڈیٹا کل عالم کے تقریباً 80 فیصد حصہ ہے اور مختلف ای م ا و مشین لرننگ (ایم ا یل) ماڈلز کا استعمال کرکے ویکٹرز میں بدل کرکے کی جا سکتی ہے۔

ایمبیڈنگ ویکٹرز

ایمبیڈنگ ویکٹرز بے ساختہ ڈیٹا (مثال کے طور پر ای میل، آئی او ٹی سینسر ڈیٹا، انسٹاگرام فوٹوز، پروٹین سڑڂیرز وغیرہ) کی خصوصی اختصاصات ہوتی ہیں۔ ریاضیاتی نقطہ نظر سے دیکھا جائے تو ایمبیڈنگ ویکٹرز میں فلاٹنگ پوائنٹ نمبرز یا بائنری ایرے شامل ہوتے ہیں۔ موجرن ایمبیڈنگ تکنیکس کا استعمال بے ساختہ ڈیٹا کو ایمبیڈنگ ویکٹرز میں بدلتے ہیں۔

ویکٹر مماثلت تلاش

ویکٹر مماثلت تلاش میں ایک ویکٹر کو ڈیٹا بیس کے ساتھ موازنہ کرکے وہ ویکٹر تلاش کیا جاتا ہے جو سوال ویکٹر سے سب سے زیادہ مماثل ہوتا ہے۔ تقریبی قریبی پڑوسی مطابقت تلاش کے الگورتھمز کا استعمال سرچ پروسس کو تیز کرسکتا ہے۔ اگر دو ایمبیڈنگ ویکٹرز بہت مشابہت رکھتے ہیں تو یہ دکھاتا ہے کہ اصل ڈیٹا کے ماخذ بھی مماثل ہیں۔

ملوس کو کیوں چنیں؟

  • بڑے پیمانے پر ڈیٹا سیٹس کے ویکٹر تلاش کے لئے بلند کارکردگی۔
  • ملٹی لینگویج اور ٹول چین سپورٹ کے ساتھ ڈویلپر فوکس سینٹرک اپورٹ کا حمایت کرتا ہے۔
  • بادل میں اضافہ کرتا ہے اور کمیابی میں مضمونت برقرار رکھتا ہے، حتیٰ کہ کم کاری کے صورت میں بھی۔
  • سکیل اپ اور ہائی ریلابلٹی کو سکھ ت تے ہوئے ان کو تشکیل دیتا ہے۔

کون سے انڈیکس اور میٹرک اسٹینڈرڈ سپورٹ ہوتے ہیں؟

انڈیکسز ڈیٹا کی تنظیمی اکائیاں ہوتی ہیں۔ جب آپ موصول انٹٹٹیز کو تلاش یا سوال کرنے سے پہلے انڈیکس نمائیں کی قسم اور مماثلت میٹرک اسٹینڈرڈ کا بیان کرسکتے ہیں۔ اگر آپ انڈیکس کی قسم و چنتے نہیں ہیں تو، ملوس غیراظمی قریبی پڑوسی تلاش استعمال کرنے کے لئے دیفالٹ طور پر استعمال ہو تا ہے۔

انڈیکس کی اقسام

ملوس تقریبی قریبی پڑوسی نگار تلاش (این اے این ایس) کے لئے زیادہ تر ویکٹر انڈیکس کی قسم کو سپورٹ کرتا ہے، جیسے:

  • فلیٹ: چھوٹے پیمانے (ملینز) ڈیٹا سیٹس پر مکمل درست اور بلندوں تلاش کے مواقع کے لئے مناسب ہے۔
  • IVF_FLAT: قکویزیشن انڈیکس پر مبنی، مکمل درستورتیز کے مواقع اور ایسپیڈ میں مثالی توازن کے مواقع کے لئے مناسب ہے، آیا یہاں GPU ورین جسے GPU_IVF_FLAT کہلاتا ہے بھی موجود ہے۔
  • IVF_SQ8: قنٹازیشن انڈیکس پر مبنی، ڈسک، سی پی یو، اور جی پی یو کی بہت محدود یادگاری کے صرف اس لئے مناسب ہے۔
  • IVF_PQ: قنٹازیشن انڈیکس پر مبنی، درستورتیز کے مواقع پر اضافے کے بعد بھی ایسپیڈ کو طلب کرنے والے مواقع کے لئے مناسب ہے، یہاں GPU ورین جسے GPU_IVF_PQ کہلاتا ہے بھی موجود ہے۔
  • HNSW: گراف انڈیکس پر مبنی، تلاش کی کارروائی کے لیے بہت زیادہ ضرورت ہوتی ہے والے مواقع کے لئے مناسب ہے۔

تفصیلات کے ویکٹر انڈیکس کے لئے مزید معلومات کے لئے براہ کرم ویکٹر انڈیکس کا حوالہ دیں۔

مماثلت میٹرکس

ملوس میں مماثلت میٹرکس استعمال کیا جانے والا ہے تاکہ ویکٹرز کے درمیان موافقت کا ناپ اختیار کیا جا سکے۔ ایک اچھا فاصلہ میٹرک منتخب کرنا کلاسیفیکیشن اور کلسٹرنگ کی کارکردگی کو بہتر بنا سکتا ہے۔ دی گئی ان پٹ ڈ ٹا کی شکل کے مطابقت سے مخصوص فاصلے کی میٹرکس کو منتخب کیا جاتا ہے تاکہ بہترین کارکردگی حاصل کی جاسکے۔

فلاٹنگ پوائنٹ ایمبیڈنگز کے لئیے عام میٹرکز شامل ہیں:

  • یورو کلیدین دُوری (ایل ٹو): یہ میٹرک عموماً کمپیوٹر وژن کے شعبے میں استعمال کیا جاتا ہے۔
  • انر پراڈکٹ (آ ئی پی): یہ میٹرک عموماً طبیعی زبان کے شعبے میں استعمال کیا جاتا ہے۔

بائنری ایمبیڈنگز کے لئئے عام میٹرکز شامل ہیں:

  • ہیمنگ دوری؛: یہ می

نمونے کی درخواست

ملوس کو اپنی ایپلیکیشنز میں مشابہت تلاش شامل کرنے کے لئے آسان بناتا ہے۔ ملوس کی نمونے کی درخواستیں شامل ہیں:

  • تصویر کی مشابہت تلاش: تصاویر کو قابل تلاش بناتا ہے اور بڑی ڈیٹا بیس سے نزدیک کی مشابہ تصاویر فوراً واپس دیتا ہے۔
  • ویڈیو کی مشابہت تلاش: کی فریموں کو ویکٹر میں تبدیل کرکے اور پھر نتائج ملوس میں داخل کرکے، وہ موزوں ویڈیوز کو نزدیک وقت میں تلاش کرسکتا ہے۔
  • آڈیو کی مشابہت تلاش:سپیچ، موسیقی، آوازیں کی اور مشابہ آوازوں جیسی بڑی مقدار کی آڈیو ڈیٹا کو تیزی سے سوال کرتا ہے۔
  • سفارشی نظام: صارف کے رویہ اور ضروریات کے مطابق معلومات یا مصنوعات کی تجویز کرتا ہے۔
  • سوال جواب نظام: دیجیٹل سوال جواب چیٹ بوٹس جو خود بخود صارف کے سوالات کا جواب دے سکتے ہیں۔
  • ڈی این اے ترتیب: مشابہ ڈی این اے ترتیبوں کی موازنہ کرکے دسمیلی سیکنڈمیں جینز کو درست طریقے سے دستیاب کرتا ہے۔
  • متن تلاش انجنز: صارفوں کو موجودہ ڈیٹا بیس کی کی واڑد باکیوں سے کلیدی الفاظ کی موازنہ کرکے تلاش میں مدد کرتا ہے۔

ملوس کا ڈیزائن کنسپٹ

ملوس ایک کلاؤڈ پر مبنی ویکٹر ڈیٹابیس ہے، جو اپنے ڈیزائن میں اسٹوریج کو حسابی سے علیحدہ کرتا ہے۔ اپنی انتہائی لچکداری اور لچک پذیری کو بڑھانے کے لئے، ملوس کے تمام حصے غیر حالت ہیں۔

نظام چار لیۓ میں تقسیم ہوتا ہے:

  • رسائی کا پردہ: یہاں غیر حالت پردے پر مشتمل گروپ ہوتا ہے جو نظام کا فرنٹ اینڈ لیئر اور صارفین کے لیۓ ایمپائنٹس ہوتا ہے۔
  • ہم آہنگ خدمت: یہ خدمت ورکر نوڈز کو ترتیب دیتی ہے اور نظام کا مرکزی ہب ہوتا ہے۔
  • ورکر نوڈز: یہ نوڈز نظام کے بازو اور ٹانگ ہوتے ہیں، ہم آہنگ خدمت سے حکمات لیتے ہیں اور صارفین کی طرف سے ترغیب شدہ DML/DDL کمانڈز برادری میں مواصلت حکمرانی کرتے ہیں۔
  • اسٹوریج: یہ نظام کا سکل ہ

تلاش کی حدود

ویکٹر حدود
topk (سب سے مشابہ نتائج واپسی کی تعداد) 16,384
nq (تلاش کی درخواستوں کی تعداد) 16,384