ایچ ٹی ایم ایل (HTML)
Hypertext Markup Language (HTML) وہ معیاری مارک اپ زبان ہے جو ویب براؤزرز میں دکھائے جانے والے دستاویزات کی ڈیزائن کے لئے استعمال ہوتی ہے۔
یہ مضمون پیش کرتا ہے کہ LangChain کیسے ایچ ٹی ایم ایل دستاویزات کو ایک فارمیٹ میں لوڈ کرتا ہے جس کو ہم نیچے استعمال کر سکتے ہیں۔
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
BeautifulSoup4 کے ساتھ ایچ ٹی ایم ایل لوڈ کرنا
ہم BeautifulSoup4 کو BSHTMLLoader
کے ساتھ بھی استعمال کر سکتے ہیں تاکہ ہم ایچ ٹی ایم ایل دستاویزات کو لوڈ کر سکیں۔ اس سے ہم HTML سے متن کو page_content
میں نکالیں گے اور صفحے کا عنوان metadata
میں title
کے طور پر سیٹ کریں گے۔
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]