LangChainでHTMLデータを読み込む

HTML（HTML）

Hypertext Markup Language（HTML）は、ウェブブラウザで表示されるドキュメントを設計するために使用される標準のマークアップ言語です。

この記事では、LangChainがHTMLドキュメントを下流で使用できる形式にどのように読み込むかを紹介します。

from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html")

data = loader.load()

data

[Document(page_content='私の最初の見出し\\n\\n私の最初の段落。', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

BeautifulSoup4を使用したHTMLの読み込み

また、BSHTMLLoaderを使用してBeautifulSoup4を使用してHTMLドキュメントを読み込むこともできます。これにより、HTMLからテキストを抽出し、metadata内のtitleとしてページタイトルを設定します。

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data

[Document(page_content='\\n\\nテストタイトル\\n\\n\\n私の最初の見出し\\n私の最初の段落。\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]

HTML（HTML）

BeautifulSoup4を使用したHTMLの読み込み

関連チュートリアル