ল্যাংচেইন ভেক্টর স্টোর

ভেক্টর স্টোর

ইন্টিগ্রেশন এ যান ল্যাংচেইন দ্বারা সরদিদ সমর্থিত তৃতীয় পক্ষ ভেক্টর স্টোরেজ ইঞ্জিনগুলি সম্পর্কে জানতে।

অ্যানস্ট্রাকচার্ড ডেটার সংরক্ষণ এবং অনুসন্ধানের জন্য সবচেয়ে সাধারণ সমাধান হলো ডেটার ফিচার ভেক্টর গণনা করা এবং প্রশ্ন করার সময় ভেক্টর সাদৃশ্যের ভিত্তিতে অনুরূপ ভেক্টর অনুসন্ধান করা। একটি ভেক্টর ডেটাবেস ভেক্টর সংরক্ষণ ইঞ্জিন প্রদান করার জন্য দায়িত্বপ্রাপ্ত।

ল্যাংচেইন ভেক্টর স্টোর দিয়ে শুরু হওয়া

এই গাইডটি ভেক্টর স্টোর সম্পর্কিত মৌলিক কার্যক্ষমতাগুলির মধ্যে পরিচিত করা যায়। টেক্সট ভেক্টর গণনা করার জন্য টেক্সট এম্বেডিং মডেল নির্ধারণ করার আগে এই অধ্যায়টি অধ্যয়ন করার আগে প্রস্তাবিত হয়।

একাধিক সুস্বাদু ভেক্টর স্টোর ইঞ্জিন আছে। নীচে, ল্যাংচেইন ফ্রেমওয়ার্কে 3 টি বিনামূল্যে এবং ওপেন-সোর্স ভেক্টর স্টোর ইঞ্জিনের ব্যবহার প্রস্তাবিত হয়।

ক্রোমা

এই অধ্যায়টি chroma ভেক্টর ডাটাবেস ব্যবহার করে, যা পাইথন লাইব্রেরিহীন একটি স্থানীয় স্থানকরণ হয়।

pip install chromadb

এখানে, আমরা ওপেনএআই এম্বেডিং মডেল ব্যবহার করে ভেক্টর গণনা করার জন্য, তাই আমাদের ওপেনএআই API কী অর্জন করতে হয়।

import os
import getpass
os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import Chroma

raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = Chroma.from_documents(documents, OpenAIEmbeddings())

ফাইস

এই অধ্যায়টি FAISS ভেক্টর ডাটাবেস ব্যবহার করে, যা ফেসবুক এআই সিমিল্যারিটি সার্চ (FAISS) লাইব্রেরি ব্যবহার করে।

pip install faiss-cpu

import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import FAISS

raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = FAISS.from_documents(documents, OpenAIEmbeddings())

ল্যান্স

এই অধ্যায়টিতে আমরা দেখাব কীভাবে ল্যাংচেইন ফ্রেমওয়ার্ক ল্যান্সডি বি ভেক্টর ডাটাবেস ব্যবহার করে।

pip install lancedb

এখানে, আমরা চেষ্টা করি OpenAI-এর এম্বেডিং মডেল ব্যবহার করে ভেক্টর গণনা করার জন্য, তাই আমাদের ওপেনএআই API কী অর্জন করতে হয়।

import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import LanceDB

import lancedb

db = lancedb.connect("/tmp/lancedb")
table = db.create_table(
    "my_table",
    data=[
        {
            "vector": embeddings.embed_query("Hello World"),
            "text": "Hello World",
            "id": "1",
        }
    ],
    mode="overwrite",
)

raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = LanceDB.from_documents(documents, OpenAIEmbeddings(), connection=table)

সাদৃশ্য সার্চ

query = "প্রেসিডেন্ট কেতনজি ব্রাউন জ্যাকসনকে কি বলেছিলেন?"
docs = db.similarity_search(query)
print(docs[0].page_content)

ভেক্টর সাদৃশ্য অনুসন্ধান

similarity_search_by_vector ব্যবহার করে দেওয়া ভেক্টরের উপর ভিত্তি করে সাদৃশ্য অনুসন্ধান করুন। এই ফাংশনটি একটি স্ট্রিং প্যারামিটারের পরিবর্তে এমবেডিং ভেক্টর নেয়।

embedding_vector = OpenAIEmbeddings().embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

অসিঞ্চিত অপারেশন

ভেক্টর স্টোরেজ সাধারণভাবে একটি স্বাধীন সেবা হিসেবে চালিত হয় এবং কিছু আইও অপারেশনের প্রয়োজন হয়। তথ্যের বাইরেও থেকে প্রতিক্রিয়া অপেক্ষা করার জন্য সময় অপচয় না করতে, ভেক্টর ডাটাবেস ইন্টারফেসের জন্য অসিঞ্চিত কল ব্যবহার করুন।

ল্যাংচেন ভেক্টর স্টোরেজের জন্য অনিবার্য অসিঞ্চিত অপারেশন সমর্থন করে। সব পদ্ধতিগুলির জন্য অসিঞ্চিত ফাংশন ব্যবহার করতে হয়, যা a উপসর্গ সহ অধিকাংশ পদ্ধতিকে নির্দেশ করে।

Qdrant একটি ভেক্টর স্টোরেজ যা সমস্ত অসিঞ্চিত অপারেশন সমর্থন করে। নিচে একটি Qdrant ব্যবহারের উদাহরণ দেওয়া হয়।

pip install qdrant-client

from langchain_community.vectorstores import Qdrant

অসিঞ্চিত ভেক্টর স্টোরেজ তৈরি

db = await Qdrant.afrom_documents(documents, embeddings, "http://localhost:6333")

সাদৃশ্য অনুসন্ধান

query = "দুনিয়ার প্রেসিডেন্ট কেতনজি ব্রাউন জ্যাকসন-কে কী বললেন?"
docs = await db.asimilarity_search(query)
print(docs[0].page_content)

ভেক্টর ভিত্তিক অনুসন্ধান

embedding_vector = embeddings.embed_query(query)
docs = await db.asimilarity_search_by_vector(embedding_vector)

সর্বাধিক সীমানা উপরের মৌলিকতা (MMR) অনুসন্ধান

সর্বাধিক সীমানা উপরের মৌলিকতা অনুসন্ধান করলে আপনি সামগ্রিক ডকুমেন্টগুলির মধ্যে যোগদানের প্রাধান্যতা অনুভূত করবেন। এটি অসিঞ্চিত API সমর্থন করে।

query = "দুনিয়ার প্রেসিডেন্ট কেতনজি ব্রাউন জ্যাকসন-কে কী বললেন?"
found_docs = await qdrant.amax_marginal_relevance_search(query, k=2, fetch_k=10)
for i, doc in enumerate(found_docs):
    print(f"{i + 1}.", doc.page_content, "\n")