HTML

زبان نشانه‌گذاری هیپرمتن (HTML)، زبان نشانه‌گذاری استاندارد استفاده شده برای طراحی اسناد نمایش داده‌شده در مرورگرهای وب است.

این مقاله معرفی می‌کند که چگونه LangChain اسناد HTML را به یک قالب بارگیری می‌کند که ما می‌توانیم به صورت پایین‌دستی استفاده کنیم.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='عنوان اول من\\n\\nپاراگراف اول من.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

بارگیری HTML با BeautifulSoup4

همچنین می‌توانیم از BeautifulSoup4 با BSHTMLLoader برای بارگیری اسناد HTML استفاده کنیم. این کار متن را از HTML استخراج می‌کند و آن را به page_content می‌دهد و عنوان صفحه را به title در metadata تنظیم می‌کند.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nعنوان تست\\n\\n\\nعنوان اول من\\nپاراگراف اول من\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'عنوان تست'})]