Załaduj dane HTML za pomocą LangChain

HTML

HyperText Markup Language (HTML) jest standardowym językiem znaczników używanym do projektowania dokumentów wyświetlanych w przeglądarkach internetowych.

Ten artykuł wprowadza sposób, w jaki LangChain wczytuje dokumenty HTML do formatu, który możemy wykorzystać później.

from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html")

data = loader.load()

data

[Document(page_content='Mój pierwszy nagłówek\n\nMój pierwszy akapit.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Wczytywanie HTML za pomocą BeautifulSoup4

Możemy również użyć BeautifulSoup4 z BSHTMLLoader, aby wczytać dokumenty HTML. Spowoduje to wyodrębnienie tekstu z HTML do page_content i ustawienie tytułu strony jako title w metadata.

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data

[Document(page_content='\\n\\nTytuł testowy\\n\\n\\nMój pierwszy nagłówek\nMój pierwszy akapit.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Tytuł testowy'})]

HTML

Wczytywanie HTML za pomocą BeautifulSoup4

Powiązane Tutoriale