لینگچین کے لئے مارک ڈاؤن ڈیٹا لوڈ کرنا

Markdown

مارک ڈاؤن ایک ہلکی پیمائش کی مارک اپ زبان ہے جو آپ کو عام متن ایڈیٹر کا استعمال کرکے متن کی سیاق و سباق کرنے کی اجازت دیتی ہے۔

یہ مضمون پیش کرتا ہے کہ LangChain مارک ڈاؤن دستاویزات کو کس طرح سے دسترس کرتا ہے جو ہم نیچے استعمال کر سکتے ہیں۔

from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdown_path = "../../../../../README.md"
loader = UnstructuredMarkdownLoader(markdown_path)

data = loader.load()

data

[Document(page_content="🦜🔗 LangChain\n\n⚡ ایل ایل ایمز کے ذریعے ترتیب دی گئی اطلاقات کے ساتھ ایپلیکیشنز بنانا ⚡\n\nJS/TS ورژن چاہتے ہیں؟ LangChain.js دیکھیں۔\n\n تولیدی حمائیت: جب آپ اپنے LangChains کو تولیدی مرتبان میں لے جاتے ہیں تو ہمیں مکمل حمائیت فراہم کرنا پسند ہوگا۔\nبراہ کرم اس فارم کو بھریں اور ہم ایک مخصوص حمائیت سلیک چینل کا قایم کریں گے۔\n\nفوری انسٹالیشن\n\npip install langchain\nیا\nconda install langchain -c conda-forge\n\n🤔 یہ کیا ہے؟\n\nبراہ کرم یہاں دیکھیں لارج لینگویج ماڈلز (LLMs) تبدیلی آور ٹیکنالوجی سمجھانے کے طور پر نکل رہے ہیں، جو ڈویلپرز کو وہ ایپلیکیشنز بنانے کی سوفی پابندی فراہم کرتے ہیں جو پہلے وہ کرنے کے قابل نہیں تھیں۔ لیکن، انہیں تنہائی میں استعمال کرنا عام طور پر حقیقت میں کافی نہیں ہے کیونکہ اصل طاقت وہی آتی ہے جب آپ انہیں دوسرے حساب کتاب یا علم کے ذرائع کے ساتھ مشترک کرسکیں۔\n\nیہ لائبریری ان قسم کی ایپلیکیشنز کی ترقی میں مدد کرنے کے امداد کرنے کا مقصد رکھتی ہے۔ ان ایپلیکیشنز کے عام مثالیں درج ذیل ہیں:\n\n📚 کوئی خاص دستاویزات پرسٹساں سوال جواب\n\nدستاویزات\n\nEnd-to-end مثال: نوشن ڈیٹا بیس پر سوال جواب\n\n📬 چیٹ بوٹس\n\nدستاویزات\n\nEnd-to-end مثال: چیٹ-لینگچین\n\n🤖 ایجنٹس\n\nدستاویزات\n\nEnd-to-end مثال: GPT+WolframAlpha\n\n📝 دستاویزات\n\nبراہ کرم یہاں دیکھیں پوری دستاویزات پر:\n\n شروع کرنے کا طریقہ (انسٹالیشن، ماحول قائم کرنا، سادہ مثالات)\n\nHow-To مثالیں (ڈیموز، انٹیگریشن، ہیلپر فنکشنز)\n\nحوالے (کامل API ڈاکس)\n\nوسائل (بنیادی تصورات کی بلند دستاویزات)\n\n🚀 یہ کس کام میں مدد فراہم کرسکتی ہے؟\n\nیہاں پر LangChain کی مدد سے مدد فراہم کرنے کیلئے ڛاتھ میں چھ چیف علاقے ہیں۔ ان میں درج ذیل ہیں، تفصیل کے لحاظ سے بڑے سے بڑا:\n\n📃 LLMز اور Promptز:\n\nاس میں پرامپٹ منجمنٹ، پرامپٹ آپٹمائزیشن، تمام LLMز کے لئے جنرک انٹرفیس، اور LLMز کے ساتھ کام کرنے کے عام اىٹیلیٹیز شامل ہیں۔\n\n🔗 چینز:\n\nچینز ایک ہی LLM طلب کرنے سے اگے نکل کر مختلف زراعت کے ساتھ ترتیبات کو شامل کرتے ہیں۔ LangChain مختلف اوزاروں کے ساتھ چینز کا ایک معیار کی اىٹیرفیس، بہت سارے انٹیگریشنز، اور براہ کرم عام ایپلیکیشنز کے لئے ایک مقامی چین کا فراہمی کرتا ہے۔\n\n🚚 ڈیٹا میں اضافے کی جی نریشن:\n\nڈیٹا میں اضافے کی جی نریشن مشتمل ہوتی ہے کہنے سے پہلے ایک خارجی ڈیٹا سورس سے مخصوص قسم کے ڈیٹا کو حاصل کرنے کے چین کے امور شامل ہوتے ہیں۔ مثالیں درج ذیل ہیں: طویل متن کی خلاصی اور مخصوص ڈیٹا سورس پر سوال جواب۔\n\n🤖 ایجنٹس:\n\nایجنٹس شامل ہوتے ہیں جو ایک LLM کو فیصلے کی کیسی کرنی ہے، اس عمل کو کرنے کا فیصلہ کرنا، ایک مشاہدہ دیکھنا، اور اس کو جب تک کرنا جب تک ختم نہیں ہوتا۔ LangChain ایجنٹز کے لئے ایک عام انٹرفیس، منتخب ایجنٹس کی تعداد اور ایجنٹس کے عام سرگرم کرنے کی مخصوص مثالیں فراھم کرتا ہے۔\n\n🧠 یاداشت:\n\nیاداشت ایک چین/ایجنٹس کے کال کے درمیان میں حالت کو قائم رکھنے کا حوالہ دیتا ہے۔ LangChain یاداشت کے لئے ایک معیاری انٹرفیس، مختلف یاداشت کے ترتیبات کا ایک مجموعہ، اور چین/ایجنٹس کی مثالیں فراٹم ہے جو یادات دیں۔\n\n📐 تشخیص:\n\n[BETA] متولد ہونے والے ماڈلز کو روایتی میٹرکس سے اندازہ لگانا ناکامی کا سبب نزر آتا ہے۔ یہ فیصلے کو اسی ترتیب سے اندازہ لگانے کا ایک نیا طریقہ ہے۔ LangChain انکے تشخیص میں مدد فراہم کرنے کے لئے کچھ پرامپٹس/چینز فراہم کرتا ہے۔\n\nان تصورات کی مزید معلومات کے لئے، براہ کرم ہماری پوری دستاویزات دیکھیں۔\n\n📁 شراکت\n\nایک تیز ترقی پزیر میدان میں ایک اوپن-سورس پراجیکٹ کے طور پر، ہم سب سے زیادہ نو کوئی ترقیات کو خوش آمدید کرتے ہیں، چاہے وہ ایک نیا خصوصیت کی صورت میں ہو، بہترِ بہتر زراعت ہو، یا بہترِ بہتر دستاویزات ہوں۔\n\nتفصیلی معلومات کے لئے کس طرح شراکت کرنا درج ذیل نظر آتا ہے۔", metadata={'source': '../../../../../README.md'})]

elements محفوظ کریں

بیک گمروڈ پیچھے، Unstructured مختلف متن بلاکس کے لئے مختلف "elements" پیدا کرتا ہے۔ ہم انہیں پہلے سے ملا کر ملاتے ہیں، لیکن آپ اس علیحدگی کو باآسانی محفوظ کر سکتے ہیں جب آپ mode="elements" کی مخصوص کریں۔

loader = UnstructuredMarkdownLoader(markdown_path, mode="elements")

data = loader.load()

data[0]

Document(page_content='ð\x9f¦\x9cï¸\x8fð\x9f”\x97 LangChain', metadata={'source': '../../../../../README.md', 'page_number': 1, 'category': 'Title'})

elements محفوظ کریں

متعلقہ ٹیوٹوریلز