लैंगचैन के लिए मार्कडाउन डेटा लोड कर रहा है

यहां मार्कडाउन एक हल्की मार्कअप भाषा है जो आपको सादा पाठ संपादक का उपयोग करके पाठ को स्वरूपित करने की अनुमति देती है।

इस लेख में बताया गया है कि लैंगचेन कैसे मार्कडाउन दस्तावेज़ों को डॉक्यूमेंट फॉर्मेट में लोड करता है जिसका हम निचे प्रयोग का सामान कर सकते हैं।

from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdown_path = "../../../../../README.md"
loader = UnstructuredMarkdownLoader(markdown_path)

data = loader.load()

data

[Document(page_content="🦜🔗 लैंगचेन\n\n⚡ LLMs के माध्यम से संयोजन के माध्यम से अनुप्रयोगों का निर्माण ⚡\n\nJS / TS संस्करण खोज रहे हैं? LangChain.js की जांच करें।\n\nउत्पादन समर्थन: जब आप अपने लैंगचेन को उत्पादन में ले जाते हैं, हमें और व्यापक समर्थन उपलब्ध कराने में खुशी होगी।\nकृपया इस फॉर्म को भरें और हम एक समर्पित समर्थन स्लैक चैनल सेट अप करेंगे।\n\nतेज़ इंस्टॉल\n\npip install langchain\nor\nconda install langchain -c conda-forge\n\n🤔 यह क्या है?\n\nबड़े भाषा मॉडल (LLMs) पूर्व में जिन अनुप्रयोगों का संचालन करना, उन्हें परिवर्तनात्मक प्रौद्योगिकी के रूप में उभरा जा रहा है, जो डेवलपर को उन अनुप्रयोगों को बनाने की सामर्थ्य प्रदान करता है जिनका वह पहले नहीं कर सकता था। हालांकि, इन LLMs को अकेले उपयोग करना एक वास्तविक शक्तिशाली ऐप बनाने के लिए अक्सर पर्याप्त नहीं होता है - असली शक्ति तब आती है जब आप उन्हें अन्य गणना या ज्ञान स्रोतों के साथ कंबाइन कर सकते हैं।\n\nयह पुस्तकालय उन प्रकार के अनुप्रयोगों के विकास में सहायता करने का उद्देश्य रखती है। इन अनुप्रयोगों के सामान्य उदाहरणों में शामिल हैं:\n\n📚 विशिष्ट दस्तावेज़ों पर प्रश्न का उत्तर\n\nप्रलेखन\n\nएंड-टू-एंड उदाहरण: नोशन डेटाबेस पर प्रश्नोत्तरी\n\n📬 चैटबॉट्स\n\nप्रलेखन\n\nएंड-टू-एंड उदाहरण: चैट-लैंगचेन\n\n🤖 एजेंट्स\n\nप्रलेखन\n\nएंड-टू-एंड उदाहरण: GPT+WolframAlpha\n\n📝 प्रलेखन\n\nकृपया यहां पूर्ण प्रलेखन के लिए दस्तावेज़ देखें:\n\nशुरू कैसे करें (स्थापना, पर्यावरण सेट करना, सरल उदाहरण)\n\nकैसे-करने के उदाहरण (डेमो, इंटीग्रेशन, सहायक समारोह)\n\nसंदर्भ (पूर्ण एपीआई डॉक्स)\n\nसंसाधन (मूल सिद्धांतों का उच्च स्तरीय व्याख्या)\n\n🚀 इससे किस प्रकार सहायता हो सकती है?\n\nलैंगचेन डिज़ाइन या स्थापित करने के लिए यहाँ छ: \n\n1. छोटे से छोटे LLMs और प्रॉम्प्ट्स:\n\nइसमें प्रॉम्प्ट प्रबंधन, प्रॉम्प्ट अनुकूलन, सभी LLMs के लिए एक सामान्य इंटरफ़ेस, और LLMs के साथ काम करने के लिए सामान्य उपयोगिताएं शामिल हैं।\n\n2. चेन:\n\nचेन सिंगल LLM कॉल से आगे बढ़ते हैं और अन्य उपयोगिताओं के साथ शृंखलाएँ शामिल करते हैं। लैंगचेन चेनों के लिए एक मानक इंटरफेस, अन्य टूल्स के साथ अनेकरूपताएँ, और सामान्य अनुप्रयोगों के लिए एंड-टू-एंड चेन्स शामिल हैं।\n\n3. वस्तु योजित पीढ़ी का उत्पादन:\n\nडेटा वृद्धि पर आधारित पीढ़ियों में विशिष्ट प्रकार के चेन्स शामिल हैं जो पहले संपर्क करते हैं एक बाहरी डेटा स्रोत से डेटा जेबी करते हैं। सूचनाएँ के लंबे टुकड़ों का संक्षेपन और विशिष्ट डेटा स्रोतों पर प्रश्न / उत्तर।\n\n4. एजेंट्स:\n\nएजेंट्स आपको ल्लम को इस बारे में निर्णय लेने के लिए कर्म कैसे लेने के बारे में निर्णय लेने के लिए निर्णय लेने के लिए आते हैं, एक उपेक्षण देख रहे हैं, और इसे पुनः करते हैं। लैंगचेन ने एजेंट के लिए एक मानक इंटरफेस, एजेंट की चयन करने के लिए एक चयन है, और एंड-टू-एंड एजेंट्स के नमूनों की उपलब्धि दी है।\n\n5. मेमोरी:\n\nमेमोरी एक चेन / एजेंट के कॉल के बीच स्थिर रहता है। लैंगचैन ने मेमोरी के लिए एक मानक इंटरफ़ेस, एक मेमोरी की संयोजन, और उन चेन / ऍजेंट्स के उदाहरण दिए हैं जो मेमोरी का उपयोग करते हैं।\n\n6. मूल्यांकन:\n\n[बीटा] उत्पादन मॉडलें पारंपरिक मीट्रिक्स के साथ मूल्यांकन करना कठिन होता है। उन्हें स्वयं को मूल्यांकन करने के लिए भाषा मॉडल से भी नया रास्ता होता है। लैंगचेन उन संदेशों / चेनों की प्रदान करता है, जो इसमें सहायता करने के लिए होते हैं।\n\nइन अवधारणाओं पर अधिक जानकारी के लिए, कृपया हमारे पूर्ण दस्तावेज़ देखें।\n\n📁 योगदान\n\nएक तेजी से विकसित क्षेत्र में एक ओपन-सोर्स प्रोजेक्ट के रूप में, हम योगदानों के लिए बहुत खुले हैं, चाहे वह नए सुविधा, अच्छा ढांचा या बेहतर दस्तावेज़ी की जानकारी हो।\n\nयोगदान करने के लिए विस्तृत जानकारी के लिए, यहां देखें।", metadata={'source': '../../../../../README.md'})]

Preserve Elements

पीछे के पर्दे में, Unstructured विभिन्न पाठ ब्लॉक के लिए विभिन्न "elements" बनाता है। डिफ़ॉल्ट रूप से, हम उन्हें साथ में जोड़ते हैं, लेकिन आप आसानी से mode="elements" निर्दिष्ट करके इस विभाजन को संरक्षित कर सकते हैं।

loader = UnstructuredMarkdownLoader(markdown_path, mode="elements")

data = loader.load()

data[0]

Document(page_content='ð\x9f¦\x9cï¸\x8fð\x9f”\x97 LangChain', metadata={'source': '../../../../../README.md', 'page_number': 1, 'category': 'Title'})

Preserve Elements

संबंधित शिक्षण