HTML

Ngôn ngữ đánh dấu siêu văn bản (HTML) là ngôn ngữ đánh dấu tiêu chuẩn được sử dụng để thiết kế tài liệu hiển thị trên trình duyệt web.

Bài viết này giới thiệu cách LangChain tải tài liệu HTML thành định dạng mà chúng ta có thể sử dụng ở các bước tiếp theo.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Tiêu đề đầu tiên của tôi\\n\\nĐoạn văn đầu tiên của tôi.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Tải tài liệu HTML bằng BeautifulSoup4

Chúng ta cũng có thể sử dụng BeautifulSoup4 với BSHTMLLoader để tải tài liệu HTML. Điều này sẽ trích xuất văn bản từ HTML thành page_content và đặt tiêu đề trang là title trong metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTiêu đề Kiểm tra\\n\\n\\nTiêu đề đầu tiên của tôi\\nĐoạn văn đầu tiên của tôi.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Tiêu đề Kiểm tra'})]