HTML (HTML)

L'HyperText Markup Language (HTML) è lo standard del linguaggio di markup utilizzato per progettare documenti visualizzati nei browser web.

Questo articolo introduce come LangChain carica i documenti HTML in un formato che possiamo utilizzare in seguito.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("esempio_dati/contenuto-fake.html")
data = loader.load()
data
[Documento(page_content='Il mio primo titolo\\n\\nIl mio primo paragrafo.', lookup_str='', metadata={'source': 'esempio_dati/contenuto-fake.html'}, lookup_index=0)]

Caricamento HTML con BeautifulSoup4

Possiamo anche utilizzare BeautifulSoup4 con BSHTMLLoader per caricare i documenti HTML. Questo estrarrà il testo dall'HTML in page_content e imposta il titolo della pagina come title all'interno dei metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("esempio_dati/contenuto-fake.html")
data = loader.load()
data
[Documento(page_content='\\n\\nTitolo di prova\\n\\n\\nIl mio primo titolo\\nIl mio primo paragrafo.\\n\\n\\n', metadata={'source': 'esempio_dati/contenuto-fake.html', 'title': 'Titolo di prova'})]