HTML

Le langage de balisage d'hypertexte (HTML) est le langage de balisage standard utilisé pour concevoir des documents affichés dans les navigateurs web.

Cet article présente comment LangChain charge les documents HTML dans un format que nous pouvons utiliser en aval.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("exemple_data/faux-contenu.html")
data = loader.load()
data
[Document(page_content='Mon premier en-tête\\n\\nMon premier paragraphe.', lookup_str='', metadata={'source': 'exemple_data/faux-contenu.html'}, lookup_index=0)]

Chargement HTML avec BeautifulSoup4

Nous pouvons également utiliser BeautifulSoup4 avec BSHTMLLoader pour charger des documents HTML. Cela extraira le texte de HTML dans page_content et définira le titre de la page comme title dans les metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("exemple_data/faux-contenu.html")
data = loader.load()
data
[Document(page_content='\\n\\nTitre de test\\n\\n\\nMon premier en-tête\\nMon premier paragraphe.\\n\\n\\n', metadata={'source': 'exemple_data/faux-contenu.html', 'title': 'Titre de test'})]