HTML (HTML)
L'HyperText Markup Language (HTML) è lo standard del linguaggio di markup utilizzato per progettare documenti visualizzati nei browser web.
Questo articolo introduce come LangChain carica i documenti HTML in un formato che possiamo utilizzare in seguito.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("esempio_dati/contenuto-fake.html")
data = loader.load()
data
[Documento(page_content='Il mio primo titolo\\n\\nIl mio primo paragrafo.', lookup_str='', metadata={'source': 'esempio_dati/contenuto-fake.html'}, lookup_index=0)]
Caricamento HTML con BeautifulSoup4
Possiamo anche utilizzare BeautifulSoup4 con BSHTMLLoader
per caricare i documenti HTML. Questo estrarrà il testo dall'HTML in page_content
e imposta il titolo della pagina come title
all'interno dei metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("esempio_dati/contenuto-fake.html")
data = loader.load()
data
[Documento(page_content='\\n\\nTitolo di prova\\n\\n\\nIl mio primo titolo\\nIl mio primo paragrafo.\\n\\n\\n', metadata={'source': 'esempio_dati/contenuto-fake.html', 'title': 'Titolo di prova'})]