HTML
হাইপারটেক্সট মার্কআপ ল্যাঙ্গুয়েজ (HTML) হল স্ট্যান্ডার্ড মার্কআপ ল্যাঙ্গুয়েজ, যা ওয়েব ব্রাউজারে দেখানো ডকুমেন্ট ডিজাইন করার জন্য ব্যবহৃত হয়।
এই নিবন্ধটি LangChain কিভাবে HTML ডকুমেন্ট লোড করে এমন একটি ফর্ম্যাটে নিয়ে আসে, যা আমরা নীচের প্রয়োগে ব্যবহার করতে পারি তা নিয়ে নিয়োদী।
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='আমার প্রথম হেডিং\\n\\nআমার প্রথম প্যারাগ্রাফ।', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
BeautifulSoup4 দিয়ে HTML লোড করা
আমরা সিদ্ধান্ত নিতে পারি BeautifulSoup4 ব্যবহার করে BSHTMLLoader
দিয়ে HTML ডকুমেন্ট লোড করার জন্য। এটি এই উদাহরণ দিয়ে নিচের মতো কাজ করবে:
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nটেস্ট টাইটেল\\n\\n\\nআমার প্রথম হেডিং\\nআমার প্রথম প্যারাগ্রাফ।\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'টেস্ট টাইটেল'})]