HTML

El lenguaje de marcado de hipertexto (HTML) es el lenguaje de marcado estándar utilizado para diseñar documentos que se muestran en los navegadores web.

Este artículo presenta cómo LangChain carga documentos HTML en un formato que podemos utilizar aguas abajo.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Mi primer encabezado\\n\\nMi primer párrafo.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

Cargando HTML con BeautifulSoup4

También podemos utilizar BeautifulSoup4 con BSHTMLLoader para cargar documentos HTML. Esto extraerá el texto de HTML en page_content y establecerá el título de la página como title en metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTítulo de prueba\\n\\n\\nMi primer encabezado\\nMi primer párrafo.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Título de prueba'})]