HTML
Hypertext Markup Language (HTML) adalah bahasa markup standar yang digunakan untuk merancang dokumen yang ditampilkan di peramban web.
Artikel ini memperkenalkan bagaimana LangChain memuat dokumen HTML ke dalam format yang dapat kita gunakan secara turunannya.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Judul Pertama Saya\n\nParagraf pertama saya.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
Memuat HTML dengan BeautifulSoup4
Kita juga dapat menggunakan BeautifulSoup4 dengan BSHTMLLoader
untuk memuat dokumen HTML. Ini akan mengekstrak teks dari HTML ke dalam page_content
dan mengatur judul halaman sebagai title
dalam metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\n\nJudul Uji\n\n\nJudul Pertama Saya\nParagraf pertama saya.\n\n\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Judul Uji'})]