HTML

Гипертекстовый язык разметки (HTML) - это стандартный язык разметки, используемый для создания документов, отображаемых в веб-браузерах.

В данной статье рассматривается, как LangChain загружает HTML-документы в формат, который мы можем использовать далее.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Мой первый заголовок\\n\\nМой первый параграф.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Загрузка HTML с использованием BeautifulSoup4

Также мы можем использовать BeautifulSoup4 с BSHTMLLoader для загрузки HTML-документов. Это позволит извлекать текст из HTML в page_content и устанавливать заголовок страницы как title в metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nТестовый заголовок\\n\\n\\nМой первый заголовок\\nМой первый параграф.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Тестовый заголовок'})]