โหลดข้อมูล HTML ด้วย LangChain

HTML

HTML (Hypertext Markup Language) เป็นภาษา markup standard ที่ใช้สำหรับออกแบบเอกสารที่แสดงบน web browsers.

บทความนี้จะนำเสนอว่า LangChain จะทำการโหลดเอกสาร HTML เข้าสู่รูปแบบที่เราสามารถใช้ได้ต่อไป.

from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html")

data = loader.load()

data

[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

โหลด HTML ด้วย BeautifulSoup4

เราสามารถใช้ BeautifulSoup4 ด้วย BSHTMLLoader เพื่อโหลดเอกสาร HTML โดยจะแยกข้อความจาก HTML เข้าสู่ page_content และตั้งชื่อของหน้าเป็น title ใน metadata.

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data

[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]

HTML

โหลด HTML ด้วย BeautifulSoup4

บทเรียนที่เกี่ยวข้อง