مجموعهها
مفهوم مجموعهها در پایگاه داده بردار Qdrant میتواند مشابه ساختار جدول در MYSQL باشد که برای ذخیره سازی یکنواخت دادههای برداری از یک نوع استفاده میشود. هر قطعه دادهای که در یک مجموعه ذخیره میشود، به عنوان نقطهای در Qdrant اشاره دارد. در اینجا، یک نقطه مشابه مفهوم فضای هندسی ریاضیاتی است و نمایندگی از یک بردار در فضای هندسی است (فقط آن را به عنوان یک قطعه داده در نظر بگیرید).
در یک مجموعه مشابه، بردار هر نقطه باید ابعاد یکسانی داشته باشد و با استفاده از یک متریک تنها مقایسه شود. بردارهای نامدار میتوانند برای شامل کردن چندین بردار در یک نقطه به کار روند، بهطوریکه هر بردار ابعاد و الزامات متریک خود را داشته باشد.
متریک فاصله برای اندازهگیری شباهت بین بردارها استفاده میشود. انتخاب متریک به وابستگی از اینکه چگونه بردارها به دست آمدهاند، بهویژه روش استفاده شده برای آموزش رمزگذارهای شبکه های عصبی، بستگی دارد.
Qdrant از انواع محبوب زیر متریکها پشتیبانی میکند:
- ضرب داخلی: Dot
- مشابهت کیسون: Cosine
- فاصله اقلیدسی: Euclid
برای افزایش کارآیی جستجو، مشابهت کیسون توسط گرفتن ضرب داخلی بردارهای نرمال شده به دست میآید. پس از بارگذاری، بردارها بهصورت خودکار نرمال میشوند. علاوه بر متریکها و اندازههای بردار، هر مجموعه نیز از مجموعه خودش از پارامترها برای کنترل بهینه سازی مجموعه، ساخت فهرست و پاکسازی استفاده میکند. این تنظیمات میتواند از طریق درخواستهای مربوطه در هر زمان تغییر یابد.
تنظیم چند-سایتی
چندین مجموعه باید ایجاد شود؟ در اکثر موارد، تنها نیاز است که از یک مجموعه با تقسیم بندی بر اساس بار مفید استفاده کنید. این رویکرد به عنوان چند-سایتی شناخته میشود. برای اکثر کاربران، این کارآمد است اما نیازمند پیکربندی اضافی است. یاد بگیرید چگونه چند-سایتی راهاندازی کنید.
هنگامی که باید چندین مجموعه ایجاد شود؟ وقتی که تعداد محدودی از کاربران داشته باشید و نیاز به جداسازی داشته باشید. این رویکرد انعطافپذیرتر است اما ممکن است گرانتر باشد، زیرا ایجاد تعداد زیادی مجموعه منجر به بیشباری منابع شود. علاوه بر این، باید اطمینان حاصل کنید که به هیچ نحوی تداخل نکنند، از جمله از نظر عملکرد.
ایجاد یک مجموعه
PUT /collections/{collection_name}
{
"vectors": {
"size": 300,
"distance": "Cosine"
}
}
علاوه بر گزینههای لازم، مقادیر سفارشی را نیز میتوان برای گزینههای مجموعه زیر مشخص نمود:
-
hnsw_config
- برای جزئیات فهرست، به بخش فهرست مراجعه نمایید. -
wal_config
- پیکربندی مربوط به ورودی-پیش از نوشتن ورودی. برای اطلاعات دقیقتر در مورد WAL، لطفا به آن مراجعه کنید. -
optimizers_config
- برای جزئیات بهینهسازی، به بخش بهینهساز مراجعه نمایید. -
shard_number
- تعداد شاردهایی را که مجموعه باید داشته باشد، مشخص میکند. برای اطلاعات بیشتر، لطفا به بخش نصب و راهاندازی توزیعی مراجعه نمایید. -
on_disk_payload
- مکان ذخیره دادههای بار مفید را تعیین میکند. اگر بهtrue
تنظیم شود، فقط دادههای بار مفید در دیسک ذخیره خواهند شد. این میتواند بسیار مفید باشد برای محدود کردن استفاده از RAM هنگام کار با بار مفیدهای بزرگ. -
quantization_config
- برای اطلاعات دقیق در مورد کوانتیزاسیون، به کوانتیزاسیون مراجعه نمایید.
پارامترهای پیشفرض برای گزینههای اختیاری مجموعه در پرونده پیکربندی اینجا تعیین شدهاند.
برای اطلاعات بیشتر در مورد پارامترهای مجموعه و بردارها، لطفا به تعریف طرح و پرونده پیکربندی مراجعه نمایید.
در دسترس از ورژن v1.2.0
بردارها در RAM ذخیره میشوند تا دسترسی بسیار سریع بدست آید. میتوان پارامتر on_disk
را در پیکربندی بردار تنظیم کرد. اگر به true
تنظیم شود، تمام بردارها بر روی دیسک ذخیره خواهند شد. این قابلیت استفاده از نگاشت حافظه را فعال مینماید که مناسب برای وارد کردن مقادیر زیادی داده است.
ایجاد مجموعه از مجموعه دیگر
در دسترس از ورژن v1.0.0
میتوان یک مجموعه را از یک مجموعه موجود دیگر مقدماتی نمود.
این مفید است برای سریع امتحان تنظیمات مختلف مجموعه یک دیتاست مشابه.
هنگام تنظیم پارامتر بردار در مجموعه جدید، اطمینان حاصل کنید که بردارها ابعاد و تابع فاصله یکسانی با مجموعه اصلی داشته باشند.
PUT /collections/{collection_name}
{
"vectors": {
"size": 300,
"distance": "Cosine"
},
"init_from": {
"collection": {from_collection_name}
}
}
مجموعه دادههای چند بُعدی
در دسترس از نگارش v0.10.0
هر رکورد می تواند دارای چند بُعد باشد. این ویژگی امکان ذخیره چند بُعدی در یک مجموعه را فراهم می کند. برای تمایز بُعدها درون یک رکورد، وقتی که مجموعه را ایجاد می کنید، نامهای یکتای آنها را مشخص کنید. هر بُعد با نام مشخص زیر این قالب، دارای فاصله و اندازهی خود است:
PUT /collections/{collection_name}
{
"vectors": {
"image": {
"size": 4,
"distance": "Dot"
},
"text": {
"size": 8,
"distance": "Cosine"
}
}
}
برای چندین حالت خاص، یک مجموعه بدون هیچ بُعد ذخیرهسازی هم میتواند ایجاد شود.
در دسترس از نگارش v1.1.1
برای هر بُعد مشخص، می توانید به طور اختیاری hnsw_config
یا quantization_config
را مشخص کنید تا از پیکربندی مجموعه منحرف شود. این مورد میتواند برای بهینهسازی عملکرد جستجو در سطح بُعدی استفاده شود.
در دسترس از نگارش v1.2.0
بُعدها در حافظه برای دسترسی سریع ذخیره میشوند. برای هر بُعد، میتوانید on_disk
را به true
تنظیم کنید تا همیشه تمام بُعدها را در دیسک ذخیره کنید. این امر نقشه برداری حافظه را فعال میکند که برای دریافت حجم زیادی از دادهها مناسب است.
حذف یک مجموعه
DELETE /collections/{collection_name}
بهروزرسانی پارامترهای مجموعه
بهروزرسانی پارامترهای پویا می تواند مفید باشد، مانند بارگذاری اولیه بهینهتر بُعدها. به عنوان مثال، میتوانید هنگام بارگذاری فهرستسازی را غیرفعال کنید و بلافاصله پس از اتمام بارگذاری آن را فعال کنید. به این ترتیب، منابع محاسباتی اضافی را برای بازسازی فهرست هدر نخواهید داد.
دستور زیر، فهرستسازی را برای یک بخش حاوی بُعدهای بزرگتر از 10000 kB فعال میکند:
PATCH /collections/{collection_name}
{
"optimizers_config": {
"indexing_threshold": 10000
}
}
پارامترهای زیر قابل بهروزرسانی هستند:
-
optimizers_config
- جزئیات دقیق بهینهسازها را ببینید. -
hnsw_config
- جزئیات دقیق فهرست. -
quantization_config
- جزئیات دقیق کوانتیزاسیون. -
vectors
- پیکربندی بُعدهای خاص، شامل پیکربندیهای مربوطهیhnsw_config
،quantization_config
وon_disk
. -
params
- سایر پارامترهای مجموعه، شاملwrite_consistency_factor
وon_disk_payload
.
مشخصات کامل API در تعاریف اسکیما قرار دارد.
در دسترس از نگارش v1.4.0
Qdrant 1.4 پشتیبانی از بهروزرسانی پارامترهای بیشتر مجموعه در زمان اجرا را اضافه کرده است. ایندکس HNSW، کوانتیزاسیون و پیکربندی دیسک اکنون میتواند بدون ایجاد دوباره مجموعه تغییر کند. بخشها (با اطلاعات فهرست و کوانتیزاسیون) بهطور خودکار در پسزمینه بازسازی میشوند تا با پارامترهای بهروزرسانی شده همخوانی داشته باشند.
در مثال زیر، کل مجموعه و پارامترهای ایندکس HNSW و کوانتیزاسیون برای my_vector
بهروزرسانی میشوند:
PATCH /collections/{collection_name}
{
"vectors": {
"my_vector": {
"hnsw_config": {
"m": 32,
"ef_construct": 123
},
"quantization_config": {
"product": {
"compression": "x32",
"always_ram": true
}
},
"on_disk": true
}
},
"hnsw_config": {
"ef_construct": 123
},
"quantization_config": {
"scalar": {
"type": "int8",
"quantile": 0.8,
"always_ram": false
}
}
}
توجه: برای بهروزرسانی پارامترهای بُعدها در یک مجموعه بدون بُعدهای نامدار، میتوان از نام خالی (""
) استفاده کرد.
تماسها به این پایانه ممکن است به عنوان یک مسدود کننده عمل کنند زیرا منتظر به پایان رسیدن بهینهسازهای موجود هستند. ما توصیه نمیکنیم از این قابلیت در یک پایگاه داده تولیدی استفاده کنید زیرا بازسازی فهرست میتواند هزینه مهمی را به همراه داشته باشد.
اطلاعات مجموعه
Qdrant امکان تعیین پارامترهای پیکربندی برای یک مجموعه موجود را فراهم می کند تا توزیع نقاط و وضعیت فهرستبری را بهتر درک کنیم.
GET /collections/{collection_name}
{
"result": {
"status": "green",
"optimizer_status": "ok",
"vectors_count": 1068786,
"indexed_vectors_count": 1024232,
"points_count": 1068786,
"segments_count": 31,
"config": {
"params": {
"vectors": {
"size": 384,
"distance": "Cosine"
},
"shard_number": 1,
"replication_factor": 1,
"write_consistency_factor": 1,
"on_disk_payload": false
},
"hnsw_config": {
"m": 16,
"ef_construct": 100,
"full_scan_threshold": 10000,
"max_indexing_threads": 0
},
"optimizer_config": {
"deleted_threshold": 0.2,
"vacuum_min_vector_number": 1000,
"default_segment_number": 0,
"max_segment_size": null,
"memmap_threshold": null,
"indexing_threshold": 20000,
"flush_interval_sec": 5,
"max_optimization_threads": 1
},
"wal_config": {
"wal_capacity_mb": 32,
"wal_segments_ahead": 0
}
},
"payload_schema": {}
},
"status": "ok",
"time": 0.00010143
}
در صورتی که برداشتها به مجموعه اضافه شوند، فیلد status
ممکن است در حال بهینهسازی به "yellow" تغییر کند و پس از پردازش موفق تمام نقاط، به "green" تغییر خواهد کرد.
وضعیتهای رنگی زیر ممکن است مواجه شود:
- ?
green
: مجموعه آماده است - ?
yellow
: مجموعه در حال بهینهسازی است - ?
red
: موتور با خطا غیرقابل بازیابی مواجه شده است
مشخصات دیگری که ممکن است جالب باشند عبارتند از:
-
points_count
- تعداد کل اشیاء (برداشتها و بارهای آنها) ذخیره شده در مجموعه -
vectors_count
- تعداد کل برداشتها در مجموعه. اگر هر شی دارای چندین برداشت باشد ممکن است باpoints_count
برابر نباشد. -
indexed_vectors_count
- تعداد کل برداشتهای ذخیره شده در فهرستبر HNSW. Qdrant تمام برداشتها را در فهرستبر ذخیره نمی کند، بلکه فقط آنها را که ممکن است براساس پیکربندی داده شده، بخشهای فهرستبر را ایجاد کنند.
فهرستبری برداشتها در HNSW
در برخی موارد ممکن است مقدار indexed_vectors_count
کمتر از vectors_count
باشد. این یک رفتار هدفمند است که بسته به پیکربندی بهینهساز، رخ می دهد. یک بخش فهرست جدید ایجاد خواهد شد اگر اندازه برداشتهای غیرفهرستبری مقدار indexing_threshold
(به KB) را بیشتر کند. اگر مجموعه شما بسیار کوچک است یا بعد فضای برداشت کم است، بخشهای HNSW ایجاد نمیشود و indexed_vectors_count
ممکن است برابر با 0
باشد.
شما می توانید مقدار indexing_threshold
را در پارامترهای مجموعه کاهش دهید تا یک بخش فهرست جدید در مجموعه موجود ایجاد شود.
نامهای متحدالشکل مجموعه
در محیط تولید، ممکن است نیاز به تغییر سریع بین نسخههای مختلف برداشتها باشد، مانند ارتقاء به یک نسخه جدید از شبکههای عصبی.
در این موارد، امکان اینکه سرویس را متوقف کرده و مجموعه را با استفاده از برداشتهای جدید دوباره ایجاد کنیم، ممکن نیست وجود داشته باشد. متحدالشکل یک نام اضافی برای یک مجموعه موجود است .پرس و جوی کامل می تواند از طریق متحدالشکل به جای نام مجموعه، اجرا شود.
بنابراین، یک مجموعه دوم می تواند در پس زمینه ایجاد شود و سپس متحدالشکل از مجموعه قدیمی به مجموعه جدید منتقل شود. همانطور که تغییرات متحدالشکل اتمیک هستند، در هنگام فرایند تغییر، درخواستهای متوالی تحت تاثیر نیستند.
ایجاد متحدالشکل
POST /collections/aliases
{
"actions": [
{
"create_alias": {
"alias_name": "production_collection",
"collection_name": "example_collection"
}
}
]
}
حذف متحدالشکل
POST /collections/aliases
{
"actions": [
{
"delete_alias": {
"alias_name": "production_collection"
}
}
]
}
تغییر مجموعه
چندین عملیات متحدالشکل می توانند به صورت اتمیک اجرا شوند. به عنوان مثال، می توانید از دستور زیر برای تغییر مجموعه اصلی استفاده کنید:
POST /collections/aliases
{
"actions": [
{
"delete_alias": {
"alias_name": "production_collection"
}
},
{
"create_alias": {
"alias_name": "production_collection",
"collection_name": "new_collection"
}
}
]
}
نمایش همه متغیرها مجموعه
GET /collections/{collection_name}/aliases
نمایش همه متغیرها
GET /aliases
نمایش همه مجموعهها
GET /collections