ฐานข้อมูลเวกเตอร์เป็นวิธีที่ใหม่ที่พัฒนาขึ้นเพื่อทำงานกับการแทนแบบข้อมูลที่มาจากโครงสร้างการเรียนรู้ของเครื่องที่ไม่โปร่งใส เช่นโครงสร้างการเรียนรู้ลึก การแทนแบบเหล่านี้เรียกว่าเวกเตอร์หรือเวกเตอร์ฝังแทรก และเป็นรุ่นที่บีบอัดของข้อมูลที่ใช้สำหรับการฝึกโมเดลการเรียนรู้ของเครื่องเพื่อดำเนินการเช่นการวิเคราะห์ความรู้สึก การระบุเสียง และการตรวจจับวัตถุ
ฐานข้อมูลเหล่านี้ได้แสดงประสิทธิภาพที่โดดเด่นในหลายประการ เช่นการค้นหาทางหมายและระบบแนะนำ
Qdrant คืออะไร?
Qdrant เป็นฐานข้อมูลเวกเตอร์โอเพ่นซอร์สที่ออกแบบมาสำหรับแอปพลิเคชัน AI รุ่นต่อไป มันเป็นธรรมชาติของคลาวด์และให้ RESTful และ gRPC APIs สำหรับการจัดการฝังแระความต้องการ เครื่องมือที่ทรงพลังใน Qdrant รองรับการค้นหารูปภาพ เสียง และวิดีโอ รวมถึงการผสมกับเครื่องมือ AI
ฐานข้อมูลเวกเตอร์คืออะไร?
ฐานข้อมูลเวกเตอร์เป็นประเภทของฐานข้อมูลที่ออกแบบมาเพื่อการเก็บข้อมูลและสอบถามเวกเตอร์มิติสูงอย่างมีประสิทธิภาพ ในฐานข้อมูล OLTP และ OLAP แบบดั้งเดิม (ตามภาพด้านบน) ข้อมูลจัดระเบียบอยู่ในแถวและคอลัมน์ (ที่เรียกว่า ตาราง), และคำสอบถามจะอ้างอิงตามค่าในคอลัมน์เหล่านั้น อย่างไรก็ตามในแอปพลิเคชันบางประการ อย่างเช่นการระบุภาพ เคลมความสามารถภาษาธรรมชาติ และระบบแนะนำ ข้อมูลมักถูกแทนในรูปของเวกเตอร์ในอวกาศมิติสูง วิเคราะห์เหล่านี้พร้อมกับ ID และการส่งของเป็นต้นและเป็นส่วนประกอบขององค์ประกอบที่เก็บในฐานข้อมูลเวกเตอร์เช่น Qdrant
ในบริบทนี้ เวกเตอร์คือการแทนทางคณิตศาสตร์ของวัตถุหรือจุดข้อมูล โดยที่แต่ละองค์ประกอบของเวกเตอร์จะสอดคล้องกับคุณสมบัติหรือข้อจำกัดของวัตถุ ตัวอย่างเช่น ในระบบระบบรู้จำภาพ เวกเตอร์สามารถแทนภาพได้ โดยที่แต่ละองค์ประกอบของเวกเตอร์จะแทนค่าพิกเซลหรือลักษณะ/รายละเอียดของพิกเซล ในระบบแนะนำเพลง แต่ละเวกเตอร์จะแทนเพลง โดยที่แต่ละองค์ประกอบของเวกเตอร์จะแทนคุณสมบัติของเพลง เช่นจังหวัด แนวเพลง เนื้อเพลง เป็นต้น
ฐานข้อมูลเวกเตอร์ถูกจัดและออกแบบให้มีประสิทธิภาพสำหรับการเก็บข้อมูลและสอบถามของเวกเตอร์มิติสูง โดยการใช้โครงสร้างข้อมูลและเทคนิคการจัดลำดับที่เฉพาะเจาะจง เช่น Hierarchical Navigable Small World (HNSW) สำหรับการค้นหาเพื่อนบ้านที่ใกล้เคียงโดยรอบและ Product Quantization ฐานข้อมูลเหล่านี้สามารถอนุญาตผู้ใช้ที่จะหาเวกเตอร์ที่ใกล้เคียงที่สุดกับเวกเตอร์คำสอบถามที่กำหนดตามเมตริกระยะทางบางประการ ทำให้การค้นหาความคล้ายคลึงและค้นหาความหมายได้อย่างรวดเร็ว เมตริกระยะทางที่ใช้มากที่สุดรวมถึง cosine similarity, dot product similarity, และ Euclidean distance ทั้งหมดได้รับการสนับสนุนอย่างเต็มรูปแบบใน Qdrant
นี่คือการแนะนำพอแก่การเหล่าอัลกอริทึมความคล้ายคลึงของเวกเตอร์สามรถได้:
- ความคล้ายคลึงของ Cosine - ความคล้ายคลึงของ cosine เป็นการวัดความคล้ายคลึงระหว่างสองรายการ มันสามารถถูกมองเป็นไม้บริคที่ใช้วัดระยะห่างระหว่างจุดสอง อย่างไรก็ตามแทนการวัดระยะห่างมันจะวัดความคล้ายคลึงระหว่างสองรายการ มันถูกใช้อย่างแพร่หลายในการเปรียบเทียบความคล้ายคลึงระหว่างสองเอกสารหรือประโยคในข้อความ การออกพวกว่าด้วยการคล้ายคลึงความคล้ายคลึงของ cosine คือตั้งแต่ 0 ถึง 1 โดยที่ 0 แสดงถึงความไม่คล้ายคลึงและ 1 แสดงถึงความคล้ายคลึงของที่สมบูรณ์ มันเป็นวิธีที่เรียบง่ายและมีประสิทธิภาพในการเปรียบเทียบกันกระเด็น!
- Dot Product Similarity - ความคล้ายคลึงของ dot product เป็นวิธีวัดความคล้ายคลึงระหว่างรายการสองรายการอีกวิธีหนึ่ง คล้ายกับ cosine similarity ในการจัดการกับตัวเลขมันใช้ชนิดการประมวลผลข้อมูล และการศาสตร์ข้อมูล ความคล้ายคลึงของ dot product นับผลลัพธ์จากการคูณค่าในกลุ่มของจำนวนสองเซ็ตและต่อจากนี้บวกกัน ผลรวมที่สูงแสดงถึงความคล้ายคลึงที่สูงระหว่างกลุ่มของจำนวนสองตัว มันเหมือนมีเครื่องชั่งที่วัดระดับการตรงกันของจำนวนสองกลุ่มของตัวเลข
- Euclidean Distance - ระยะทางยูคลิดเดียนเป็นวิธีทางการวัดระยะห่างระหว่างจุดสองจุดในอวกาศ คล้ายกับวิธีการวัดระยะห่างระหว่างสองที่บนแผนที่ มันถูกคำนวณโดยการหาตารากที่สองของผลรวมของกริยากำลังสองของความแตกต่างระหว่างพิกัดของจุดสองจุด วิธีวัดระยะทางนี้มักถูกใช้ในการแขนกันหรือความคล้ายคลึงของจุดข้อมูลสองจุดกัน กล่าวคือเพื่อเข้าใจระยะห่างที่ห่างออกหรือไม่ใกล้เคียงของพวกเขา
ตอนนี้ที่เราทราบเรื่องฐานข้อมูลเวกเตอร์และว่าพวกเขาแตกต่างโครงสร้างจากฐานข้อมูลอื่นๆ ให้เข้าใจว่าทำไมพวกเขาสำคัญและทำไมพวกเขาสำคัญ
ทำไมเราต้องการฐานข้อมูลเวกเตอร์?
ฐานข้อมูลเวกเตอร์มี perplay ที่สำคัญในการใช้ในแอปพลิเคชั่นต่าง ๆ ที่ต้องการการค้นหาความคล้ายคลึง เช่น ระบบแนะนำผลิตภัณฑ์, การค้นหารูปภาพที่ใช้เนื้อหาเป็นหลัก และการค้นหาแบบบุคคล. โดยการใช้เทคนิคการจูนดังและค้นหา ฐานข้อมูลเวกเตอร์สามารถดึงข้อมูลแบบไม่มีโครงสร้างที่แสดงโดยเวกเตอร์ได้เร็วขึ้นและแม่นยำมากขึ้น โดยนำผลลัพธ์ที่เกี่ยวข้องที่สุดกลับมาตอบคำถามของผู้ใช้
นอกจากนี้คุณสมบัติของการใช้ฐานข้อมูลเวกเตอร์รวมทั้ง:
- การจัดเก็บและดัชนีข้อมูลมิติสูงอย่างมีประสิทธิภาพ
- สามารถจัดการชุดข้อมูลขนาดใหญ่ที่มีพิเศษชุดข้อมูลในอีกหลายพัน
- รองรับการวิเคราะห์และค้นหาแบบ real-time
- สามารถจัดการเวกเตอร์ที่ได้มาจากประเภทข้อมูลที่ซับซ้อนเช่น รูปภาพ วิดีโอ และข้อความภาษาธรรมชาติ
- พัฒนาประสิทธิภาพในการประยุกต์ประยุกต์หลายชนิดในส่วนของการเรียนรู้ของเครื่องและปัจจัยปัญหาทางเทคโนโลยีในการเลื่อน
- การลดเวลาในการพัฒนาและการใช้และค่าในการสร้างโซลูชั่นทางกำหนดเอง โปรดทราบว่าคุณสมบัติที่เฉพาะเจาการใช้ฐานข้อมูลเวกเตอร์อาจแตกต่างกันขึ้นอยู่กับการใช้งานขององค์กรของคุณและคุณสมบัติของฐานข้อมูลที่เลือกใช้
ตอนนี้เรามาทำการประเมินโครงสร้างของ Qdrant ในระดับสูงกันบ้างใหญ่ ีพระภาพรวมของโครงสร้าง Qdrant แสดงให้เห็นถึงส่วนประกอบหลักของ Qdrant. ซึ่งเหล่านี้คือคำที่สำคัญที่เกี่ยวข้องกับ Qdrant: