HTML

Hypertext Markup Language (HTML) ist die Standard-Auszeichnungssprache, die zur Gestaltung von Dokumenten verwendet wird, die in Webbrowsern angezeigt werden.

In diesem Artikel wird vorgestellt, wie LangChain HTML-Dokumente in ein Format lädt, das wir weiterverwenden können.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Meine erste Überschrift\\n\\nMein erster Absatz.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

HTML mit BeautifulSoup4 laden

Wir können auch BeautifulSoup4 mit BSHTMLLoader verwenden, um HTML-Dokumente zu laden. Dabei wird der Text aus HTML in page_content extrahiert und der Seitentitel als title in den metadata gesetzt.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTesttitel\\n\\n\\nMeine erste Überschrift\\nMein erster Absatz.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Testtitel'})]