HTML

Hipermetin İşaretleme Dili (HTML), web tarayıcılarında görüntülenen belgeleri tasarlamak için kullanılan standart bir işaretleme dilidir.

Bu makale, LangChain'in HTML belgelerini hangi biçimde aşağı akışta kullanabileceğimiz bir formata yüklediğini tanıtıyor.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='İlk Başlık\\n\\nİlk paragrafım.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

BeautifulSoup4 ile HTML Yükleme

BSHTMLLoader ile de BeautifulSoup4'ü kullanarak HTML belgelerini yükleyebiliriz. Bu, HTML'den metni page_content içine çıkaracak ve metadata içinde sayfa başlığını title olarak ayarlayacaktır.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Başlık\\n\\n\\nİlk Başlık\\nİlk paragraf.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Başlık'})]