HTML
Ngôn ngữ đánh dấu siêu văn bản (HTML) là ngôn ngữ đánh dấu tiêu chuẩn được sử dụng để thiết kế tài liệu hiển thị trên trình duyệt web.
Bài viết này giới thiệu cách LangChain tải tài liệu HTML thành định dạng mà chúng ta có thể sử dụng ở các bước tiếp theo.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Tiêu đề đầu tiên của tôi\\n\\nĐoạn văn đầu tiên của tôi.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
Tải tài liệu HTML bằng BeautifulSoup4
Chúng ta cũng có thể sử dụng BeautifulSoup4 với BSHTMLLoader
để tải tài liệu HTML. Điều này sẽ trích xuất văn bản từ HTML thành page_content
và đặt tiêu đề trang là title
trong metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTiêu đề Kiểm tra\\n\\n\\nTiêu đề đầu tiên của tôi\\nĐoạn văn đầu tiên của tôi.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Tiêu đề Kiểm tra'})]