HTML
हाइपरटेक्स्ट मार्कअप भाषा (HTML) एक मानक मार्कअप भाषा है जो वेब ब्राउज़र में प्रदर्शित दस्तावेज़ों का निर्माण करने के लिए प्रयोग की जाती है।
इस लेख में यह बताया गया है कि LangChain कैसे HTML दस्तावेज़ों को एक स्वरूप में लोड करता है जिसे हम नीचे उपयोग कर सकते हैं।
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='मेरी पहली शीर्षक\\n\\nमेरा पहला पैराग्राफ।', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
BeautifulSoup4 के साथ HTML लोड करना
हम ब्यूटिफूलसूप 4 का भी उपयोग कर सकते हैं BSHTMLLoader
के साथ HTML दस्तावेज़ों को लोड करने के लिए। इससे HTML से पाठ को page_content
में निकाला जाएगा और metadata
में पृष्ठ शीर्षक को title
के रूप में सेट किया जाएगा।
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nपरीक्षण शीर्षक\\n\\n\\nमेरी पहली शीर्षक\\nमेरा पहला पैराग्राफ।\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'परीक्षण शीर्षक'})]