ایچ ٹی ایم ایل (HTML)

Hypertext Markup Language (HTML) وہ معیاری مارک اپ زبان ہے جو ویب براؤزرز میں دکھائے جانے والے دستاویزات کی ڈیزائن کے لئے استعمال ہوتی ہے۔

یہ مضمون پیش کرتا ہے کہ LangChain کیسے ایچ ٹی ایم ایل دستاویزات کو ایک فارمیٹ میں لوڈ کرتا ہے جس کو ہم نیچے استعمال کر سکتے ہیں۔

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

BeautifulSoup4 کے ساتھ ایچ ٹی ایم ایل لوڈ کرنا

ہم BeautifulSoup4 کو BSHTMLLoader کے ساتھ بھی استعمال کر سکتے ہیں تاکہ ہم ایچ ٹی ایم ایل دستاویزات کو لوڈ کر سکیں۔ اس سے ہم HTML سے متن کو page_content میں نکالیں گے اور صفحے کا عنوان metadata میں title کے طور پر سیٹ کریں گے۔

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]