HTML

HyperText Markup Language (HTML) jest standardowym językiem znaczników używanym do projektowania dokumentów wyświetlanych w przeglądarkach internetowych.

Ten artykuł wprowadza sposób, w jaki LangChain wczytuje dokumenty HTML do formatu, który możemy wykorzystać później.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Mój pierwszy nagłówek\n\nMój pierwszy akapit.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Wczytywanie HTML za pomocą BeautifulSoup4

Możemy również użyć BeautifulSoup4 z BSHTMLLoader, aby wczytać dokumenty HTML. Spowoduje to wyodrębnienie tekstu z HTML do page_content i ustawienie tytułu strony jako title w metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTytuł testowy\\n\\n\\nMój pierwszy nagłówek\nMój pierwszy akapit.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Tytuł testowy'})]