HTML
Hypertext Markup Language (HTML) ist die Standard-Auszeichnungssprache, die zur Gestaltung von Dokumenten verwendet wird, die in Webbrowsern angezeigt werden.
In diesem Artikel wird vorgestellt, wie LangChain HTML-Dokumente in ein Format lädt, das wir weiterverwenden können.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Meine erste Überschrift\\n\\nMein erster Absatz.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
HTML mit BeautifulSoup4 laden
Wir können auch BeautifulSoup4 mit BSHTMLLoader
verwenden, um HTML-Dokumente zu laden. Dabei wird der Text aus HTML in page_content
extrahiert und der Seitentitel als title
in den metadata
gesetzt.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTesttitel\\n\\n\\nMeine erste Überschrift\\nMein erster Absatz.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Testtitel'})]