HTML

하이퍼텍스트 마크업 언어(HTML)는 웹 브라우저에서 표시되는 문서를 디자인하는 데 사용되는 표준 마크업 언어입니다.

이 기사는 LangChain이 HTML 문서를 하향에서 사용할 수 있는 형식으로 로드하는 방법을 소개합니다.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='나의 첫 번째 제목\\n\\n나의 첫 번째 단락.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

BeautifulSoup4를 사용한 HTML 로드

또한 BSHTMLLoader를 사용하여 BeautifulSoup4를 사용하여 HTML 문서를로드 할 수 있습니다. 이렇게하면 HTML에서 텍스트를 추출하여 page_content로 설정하고 메타데이터의 title로 페이지 제목을 설정합니다.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\n테스트 제목\\n\\n\\n나의 첫 번째 제목\\n나의 첫 번째 단락.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': '테스트 제목'})]