HTML
El lenguaje de marcado de hipertexto (HTML) es el lenguaje de marcado estándar utilizado para diseñar documentos que se muestran en los navegadores web.
Este artículo presenta cómo LangChain carga documentos HTML en un formato que podemos utilizar aguas abajo.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='Mi primer encabezado\\n\\nMi primer párrafo.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
Cargando HTML con BeautifulSoup4
También podemos utilizar BeautifulSoup4 con BSHTMLLoader
para cargar documentos HTML. Esto extraerá el texto de HTML en page_content
y establecerá el título de la página como title
en metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTítulo de prueba\\n\\n\\nMi primer encabezado\\nMi primer párrafo.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Título de prueba'})]