HTML
Le langage de balisage d'hypertexte (HTML) est le langage de balisage standard utilisé pour concevoir des documents affichés dans les navigateurs web.
Cet article présente comment LangChain charge les documents HTML dans un format que nous pouvons utiliser en aval.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("exemple_data/faux-contenu.html")
data = loader.load()
data
[Document(page_content='Mon premier en-tête\\n\\nMon premier paragraphe.', lookup_str='', metadata={'source': 'exemple_data/faux-contenu.html'}, lookup_index=0)]
Chargement HTML avec BeautifulSoup4
Nous pouvons également utiliser BeautifulSoup4 avec BSHTMLLoader
pour charger des documents HTML. Cela extraira le texte de HTML dans page_content
et définira le titre de la page comme title
dans les metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("exemple_data/faux-contenu.html")
data = loader.load()
data
[Document(page_content='\\n\\nTitre de test\\n\\n\\nMon premier en-tête\\nMon premier paragraphe.\\n\\n\\n', metadata={'source': 'exemple_data/faux-contenu.html', 'title': 'Titre de test'})]