HTML
Гипертекстовый язык разметки (HTML) - это стандартный язык разметки, используемый для создания документов, отображаемых в веб-браузерах.
В данной статье рассматривается, как LangChain загружает HTML-документы в формат, который мы можем использовать далее.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Мой первый заголовок\\n\\nМой первый параграф.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
Загрузка HTML с использованием BeautifulSoup4
Также мы можем использовать BeautifulSoup4 с BSHTMLLoader
для загрузки HTML-документов. Это позволит извлекать текст из HTML в page_content
и устанавливать заголовок страницы как title
в metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nТестовый заголовок\\n\\n\\nМой первый заголовок\\nМой первый параграф.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Тестовый заголовок'})]