स्थानीय ज्ञान आधारित एआई प्रश्न और उत्तर को लैंगचेन के साथ कैसे लागू करें

व्यावसायिक ज्ञान आधार पर एआई प्रश्न-उत्तर उदाहरण

मान लीजिए आपके पास कुछ पाठ दस्तावेज (पीडीएफ, ब्लॉग, स्थानीय निजी डेटा, आदि) है और आप स्थानीय ज्ञान आधार पर आधारित एआई प्रश्न-उत्तर चैटबॉट बनाना चाहते हैं। इस फ़ंक्शनालिता को लांगचैन का उपयोग करके आसानी से लागू कर सकते हैं। नीचे एक कदम-से-कदम गाइड है कि लंगचैन का उपयोग करके इस प्रश्न-उत्तर कार्यक्षमता को कैसे प्राप्त किया जा सकता है।

ध्यान दें: LLM (बड़े भाषा मॉडल) की प्रशिक्षण की उच्च लागत के कारण, बड़े भाषा मॉडल के ज्ञान आधार को स्वयं नहीं धारण किया जाएगा। एआई केवल उस सामग्री को जानती है जिस पर उसका प्रशिक्षण हुआ है और वह नयी सामग्री या उद्यम/व्यक्तिगत निजी डेटा के बारे में अज्ञात है, इसलिए स्थानीय ज्ञान आधार को बड़े भाषा मॉडल के साथ मेल करना आवश्यक है।

एआई प्रश्न-उत्तर प्रक्रिया

दस्तावेज लोडिंग: पहले, हमें हमारी स्थानीय पाठ सामग्री को लोड करने की आवश्यकता होती है, जो लांगचैन के लोडर घटक का उपयोग करके प्राप्त किया जा सकता है।
दस्तावेजों को विभाजन करना: लांगचैन के टेक्स्ट स्प्लिटर का उपयोग करके दस्तावेजों को निर्दिष्ट आकार की पाठ से विभाजित किया जा सकता है। (ध्यान दें: पाठ विभाजन का उद्देश्य प्रश्नों के आधार पर संबंधित सामग्री फ्रेगमेंट्स की खोज को सुविधाजनक बनाना है। विभाजन का एक और कारण है कि बड़े भाषा मॉडल में एक अधिकतम टोकन सीमा होती है।)
स्टोरेज: दस्तावेजों को विभाजन करने के बाद, एक एम्बेडिंग मॉडल का उपयोग करके दस्तावेज के सुरूप वेग वेक्टर की गणना करें और फिर उन्हें एक वेग डेटाबेस में संग्रहित करें।
पुनर्प्राप्ति: प्रश्न के आधार पर, वेग डेटाबेस को पुनर्प्राप्त करने के लिए क्वेरी करें और समान दस्तावेज फ्रेगमेंट्स को पुनर्प्राप्त करें।
तैयारी: लांगचैन के क्यूए चेन का उपयोग करके प्रश्न-उत्तर करने के लिए, प्रश्न के संबंधित दस्तावेज फ्रेगमेंट्स को प्रश्न के साथ जोड़ें और इन्हें आपके द्वारा डिज़ाइन किए गए एआई प्रॉम्प्ट्स में लांगचैन को पार करें।
बातचीत (वैकल्पिक): क्यूए चेन में मेमोरी कॉम्पोनेंट जोड़कर, आप मल्टी-टर्न प्रश्न-उत्तर संवाद को सुविधाजनक बनाने के लिए एआई ऐतिहासिक संदेश मेमोरी क्षमता जोड़ सकते हैं।

तस्वीर लगातार की गई प्रक्रिया को निम्नलिखित आरेख के माध्यम से प्रस्तुत किया गया है:

प्रारंभ करना

एक त्वरित आरम्भ करने के लिए, उपरोक्त प्रक्रिया को एकल ऑब्जेक्ट VectorstoreIndexCreator में आपवाहिक किया जा सकता है। मान लीजिए कि हम इस ब्लॉग पोस्ट पर आधारित एक क्यूए क्वेशन-आंसर कार्यक्रम बनाना चाहते हैं। इसे कुछ ही कोड की पंक्तियों के माध्यम से साधा किया जा सकता है:

ध्यान दें: यह अध्याय अभी भी OpenAI के बड़े भाषा मॉडल का उपयोग करता है।

सबसे पहले, पर्यावरण चर को सेट करें और आवश्यक पैकेजों को स्थापित करें:

pip install openai chromadb
export OPENAI_API_KEY="..."

और फिर यह रन करें:

from langchain_community.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
index = VectorstoreIndexCreator().from_loaders([loader])

अब, प्रश्न पूछना शुरू करें:

index.query("What is task decomposition?")

Task decomposition is a technique to break down complex tasks into smaller, simpler steps. It can be done using LLM with simple prompts, task-specific instructions, or human input. Mindtrees (Yao et al.2023) is an example of task decomposition technique, which explores multiple reasoning possibilities at each step and generates multiple ideas at each step to create a tree structure.

प्रोग्राम चल रहा है, लेकिन इसे कैसे अंदर से कार्यान्वित किया गया है? चलिए, हम प्रक्रिया को कदम-ब-कदम विचार करें।

कदम 1. लोड करें (दस्तावेज डाटा लोड करना)

निर्दिष्ट डेटा को Documents ऑब्जेक्ट में लोड करने के लिए एक DocumentLoader का निर्दिष्ट करें। Documents ऑब्जेक्ट पाठ (पेज_सामग्री) और संबंधित मेटाडाटा का प्रतिनिधित्व करता है।

from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

ध्यान दें: लांगचैन विभिन्न लोडर प्रदान करता है ताकि विभिन्न प्रकार के डेटा को आसानी से लोड किया जा सके, जिसे पिछले अध्यायों में संदर्भ में लेना होगा।

कदम 2. विभाजन (दस्तावेजों को विभाजित करना)

क्योंकि बड़े मॉडल प्रॉम्प्ट्स की अधिकतम टोकन सीमा होती है, हम आई को बहुत ज्यादा दस्तावेज सामग्री को पार नहीं करा सकते। सामान्यत: क्यूट परिविष्टिए किए गए संबंधित दस्तावेज फ्रेगमेंट्स का परियाप्त होता है, इसलिए, हमें यहाँ दस्तावेज के स्लाइस प्रसंस्करण करने की जरूरत होती है।

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size = 500, chunk_overlap = 0)
all_splits = text_splitter.split_documents(data)

स्टेप 3. स्टोर (वेक्टर स्टोरेज)

सवाल के आधार पर संबंधित दस्तावेज़ अंश की क्वेरी करने के लिए, हमें पहले से विभाजित दस्तावेज़ अंशों के लिए पाठ सुविधा वेक्टर की गणना करनी होगी, और फिर उन्हें वेक्टर डेटाबेस में स्टोर करना होगा।

यहाँ हम Langchain द्वारा प्रदत्त डिफ़ॉल्ट वेक्टर डेटाबेस "क्रोमा" का उपयोग करते हैं, और फिर ओपेनआई एम्बेडिंग मॉडल का उपयोग करते हैं।

ध्यान दें: आप एम्बेडिंग मॉडल के रूप में अन्य ओपन सोर्स मॉडल भी चुन सकते हैं।

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

vectorstore = Chroma.from_documents(documents=all_splits, embedding=OpenAIEmbeddings())

स्टेप 4. पुनर्प्राप्त (संबंधित दस्तावेज़ों की क्वेरी)

समानता खोज के माध्यम से सवाल के संबंधित दस्तावेज़ अंशों को पुनर्प्राप्त करें।

ध्यान दें: इस स्टेप का उद्देश्य वेक्टर डेटाबेस की समानता खोज की कार्यक्षमता को प्रदर्शित करना है। इस स्टेप की कार्यक्षमता, लैंगचेन द्वारा 5वें स्टेप में एन्कैप्सुलेट किए गए क्यू एंड ए चेन में स्वत: शामिल है।

question = "कार्य विभाजन के विधान क्या हैं?"
docs = vectorstore.similarity_search(question)
len(docs)

स्टेप 5. उत्पन्न (AI का उपयोग सवालों का जवाब देने के लिए)

लेनशैन की फिल्टर लाइब्रेरी एलएलएम/चैट मॉडल (जैसे gpt-3.5-turbo) और रिट्रीवलक्यूए चेन का उपयोग करके पुनर्प्राप्त दस्तावेज़ को एक एकल उत्तर में संक्षेपित करना।

सुझाव: रिट्रीवलक्यूए एक चेन है जो लैंगचेन द्वारा एन्कैप्सुलेट किया गया है, जिसमें स्थानिक ज्ञान आधारित सवालों के जवाब देने की क्षमता होती है।

from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
qa_chain = RetrievalQA.from_chain_type(llm, retriever=vectorstore.as_retriever())
qa_chain({"query": question})

{
'query': 'कार्य विभाजन के विधान क्या हैं?',
'result': 'कार्य विभाजन के विधान निम्नलिखित होते हैं:\n\n1. सरल प्रॉम्प्ट्स: इस विधि में, कार्य को छोटे उप-लक्ष्यों में विभाजित करने के लिए सरल प्रॉम्प्ट्स या प्रश्नों का उपयोग किया जाता है। उदाहरण के लिए, एजेंट को "XYZ के लिए कदम" के साथ प्रॉम्प्ट किया जा सकता है और यहां पर XYZ प्राप्त करने के लिए उप-लक्ष्यों की सूची बनाने के लिए कहा जाता है।\n\n2. कार्य-विशिष्ट निर्देश: इस विधि में, कार्य-विशिष्ट निर्देश एजेंट की विभाजन प्रक्रिया के लिए प्रादान किए जाते हैं। उदाहरण के लिए, यदि किसी कार्य को नॉवेल लिखना है, तो एजेंट को "कथा की रूपरेखा ड्राफ्ट करें" के रूप में आदेश दिया जा सकता है जैसा कि एक उप-लक्ष्य।\n\n3. मानव प्रविष्टि: इस विधि में, कार्य विभाजन प्रक्रिया में मानव प्रविष्टि को शामिल किया जाता है। मानव एजेंट एजेंट को संयंत्र के संयंत्र को किसी अधिक व्यवस्थित उप-लक्ष्यों में बाँटने के लिए मार्गदर्शन, प्रतिक्रिया और सुझाव प्रदान कर सकते हैं।\n\nये विधियाँ बड़े कार्यों को, उन्हें छोटे, अधिक प्रबंधन योग्य भागों में विभाजित करके प्रभावी तरीके से निपटने का लक्ष्य रखती हैं।'
}

ध्यान दें कि आप "लेएलएम" या "चैटमॉडल" को "रिट्रीवलक्यूए" चेन में पास कर सकते हैं।

सूचना: यह ट्यूटोरियल लैंगचेन में स्वत: एन्कैप्सुलेट किए गए रिट्रीवलक्यूए चेन का उपयोग ज्ञान आधारित सवाल-जवाब करने के लिए करता है। वास्तविकता में, नए संस्करण के लिए लैंगचेन एलसीईएल (LCEL) अभिव्यक्तियों पर उपयुक्त अनुसरण के लिए समान सवाल-जवाब चेन कस्टमाइज़ करना बहुत आसान है। कृपया एलसीईएल पर संबंधित अनुभाग को देखें।

कस्टम प्रारूप टेम्पलेट

पिछले रिट्रीवलक्यूए चेन का उपयोग करते समय, हमने किसी प्रारूप शब्द को सेट नहीं किया और लैंगचेन से निर्मित प्रारूप शब्द टेम्पलेट का उपयोग किया। अब, आइए प्रारूप शब्द टेम्पलेट को साधारित करें।

from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

template ="""नीचे दिए गए संदर्भ के आधार पर सवाल का जवाब दीजिए। 
अगर आप जवाब नहीं जानते, तो सिर्फ "मुझे नहीं पता" कहें, 
और एक जवाब बनाने की कोशिश न करें। 
जवाब 3 वाक्यों के भीतर होना चाहिए, और इसे संक्षेप में रखें। 
हमेशा उत्तर के अंत में "आपके सवाल के लिए धन्यवाद!" कहें। 
{context}
सवाल: {question}
जवाब: """

QA_CHAIN_PROMPT = PromptTemplate.from_template(template)

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=vectorstore.as_retriever(),
    chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
)
result = qa_chain({"query": question})
result["result"]

AI प्रश्न और उत्तर स्रोत के साथ

उपयोग करें RetrievalQAWithSourcesChain भर्ती के स्थान पर RetrievalQA से, ताकि AI के जवाब देने का आधार कौन से दस्तावेज पर हो।

from langchain.chains import RetrievalQAWithSourcesChain

qa_chain = RetrievalQAWithSourcesChain.from_chain_type(llm, retriever=vectorstore.as_retriever())

result = qa_chain({"question": question})
result

ब्लॉग लिंक्स पर आधारित सवालों के जवाब देने के पिछले उदाहरण पर आधारित, वापस आये परिणाम निम्नलिखित हैं, जो हमें यह दिखाते हैं कि AI ने विशिष्ट ब्लॉग URL पर आधारित सवाल का जवाब दिया है:

{
    'question': 'कार्य विभाजन के लिए विधियाँ क्या हैं?',
    'answer': 'कार्य विभाजन के लिए विधियाँ में शामिल हैं (1) LLM और सरल प्रॉम्प्ट का उपयोग करना, (2) कार्य-विशिष्ट निर्देशों का उपयोग करना, और (3) इसके अंदर मानव संवेदनशीलता को शामिल करना।\n',
    'sources': 'https://lilianweng.github.io/posts/2023-06-23-agent/'
}