HTML(HTML)
Hypertext Markup Language(HTML)は、ウェブブラウザで表示されるドキュメントを設計するために使用される標準のマークアップ言語です。
この記事では、LangChainがHTMLドキュメントを下流で使用できる形式にどのように読み込むかを紹介します。
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='私の最初の見出し\\n\\n私の最初の段落。', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
BeautifulSoup4を使用したHTMLの読み込み
また、BSHTMLLoader
を使用してBeautifulSoup4を使用してHTMLドキュメントを読み込むこともできます。これにより、HTMLからテキストを抽出し、metadata
内のtitle
としてページタイトルを設定します。
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nテストタイトル\\n\\n\\n私の最初の見出し\\n私の最初の段落。\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]