HTML

HTML (Hypertext Markup Language) เป็นภาษา markup standard ที่ใช้สำหรับออกแบบเอกสารที่แสดงบน web browsers.

บทความนี้จะนำเสนอว่า LangChain จะทำการโหลดเอกสาร HTML เข้าสู่รูปแบบที่เราสามารถใช้ได้ต่อไป.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

โหลด HTML ด้วย BeautifulSoup4

เราสามารถใช้ BeautifulSoup4 ด้วย BSHTMLLoader เพื่อโหลดเอกสาร HTML โดยจะแยกข้อความจาก HTML เข้าสู่ page_content และตั้งชื่อของหน้าเป็น title ใน metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]