HTML

Hypertext Markup Language (HTML) adalah bahasa markup standar yang digunakan untuk merancang dokumen yang ditampilkan di peramban web.

Artikel ini memperkenalkan bagaimana LangChain memuat dokumen HTML ke dalam format yang dapat kita gunakan secara turunannya.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Judul Pertama Saya\n\nParagraf pertama saya.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Memuat HTML dengan BeautifulSoup4

Kita juga dapat menggunakan BeautifulSoup4 dengan BSHTMLLoader untuk memuat dokumen HTML. Ini akan mengekstrak teks dari HTML ke dalam page_content dan mengatur judul halaman sebagai title dalam metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\n\nJudul Uji\n\n\nJudul Pertama Saya\nParagraf pertama saya.\n\n\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Judul Uji'})]