HTML
HTML (Hypertext Markup Language) เป็นภาษา markup standard ที่ใช้สำหรับออกแบบเอกสารที่แสดงบน web browsers.
บทความนี้จะนำเสนอว่า LangChain จะทำการโหลดเอกสาร HTML เข้าสู่รูปแบบที่เราสามารถใช้ได้ต่อไป.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
โหลด HTML ด้วย BeautifulSoup4
เราสามารถใช้ BeautifulSoup4 ด้วย BSHTMLLoader
เพื่อโหลดเอกสาร HTML โดยจะแยกข้อความจาก HTML เข้าสู่ page_content
และตั้งชื่อของหน้าเป็น title
ใน metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]