HTML
Hipermetin İşaretleme Dili (HTML), web tarayıcılarında görüntülenen belgeleri tasarlamak için kullanılan standart bir işaretleme dilidir.
Bu makale, LangChain'in HTML belgelerini hangi biçimde aşağı akışta kullanabileceğimiz bir formata yüklediğini tanıtıyor.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='İlk Başlık\\n\\nİlk paragrafım.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
BeautifulSoup4 ile HTML Yükleme
BSHTMLLoader
ile de BeautifulSoup4'ü kullanarak HTML belgelerini yükleyebiliriz. Bu, HTML'den metni page_content
içine çıkaracak ve metadata
içinde sayfa başlığını title
olarak ayarlayacaktır.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Başlık\\n\\n\\nİlk Başlık\\nİlk paragraf.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Başlık'})]