HTML
زبان نشانهگذاری هیپرمتن (HTML)، زبان نشانهگذاری استاندارد استفاده شده برای طراحی اسناد نمایش دادهشده در مرورگرهای وب است.
این مقاله معرفی میکند که چگونه LangChain اسناد HTML را به یک قالب بارگیری میکند که ما میتوانیم به صورت پاییندستی استفاده کنیم.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='عنوان اول من\\n\\nپاراگراف اول من.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
بارگیری HTML با BeautifulSoup4
همچنین میتوانیم از BeautifulSoup4 با BSHTMLLoader
برای بارگیری اسناد HTML استفاده کنیم. این کار متن را از HTML استخراج میکند و آن را به page_content
میدهد و عنوان صفحه را به title
در metadata
تنظیم میکند.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nعنوان تست\\n\\n\\nعنوان اول من\\nپاراگراف اول من\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'عنوان تست'})]