HTML
HTML (Hypertext Markup Language) é a linguagem de marcação padrão usada para projetar documentos exibidos em navegadores da web.
Este artigo apresenta como o LangChain carrega documentos HTML em um formato que podemos usar posteriormente.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("exemplo_de_dados/conteudo-falso.html")
data = loader.load()
data
[Documento (conteúdo_da_página='Meu Primeiro Título\\n\\nMeu primeiro parágrafo.', string_de_procura='', metadados={'origem': 'exemplo_de_dados/conteudo-falso.html'}, índice_de_procura=0)]
Carregando HTML com BeautifulSoup4
Também podemos usar BeautifulSoup4 com BSHTMLLoader
para carregar documentos HTML. Isso extrairá o texto do HTML em conteúdo_da_página
e definirá o título da página como título
nos metadados
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("exemplo_de_dados/conteudo-falso.html")
data = loader.load()
data
[Documento (conteúdo_da_página='\\n\\nTítulo de Teste\\n\\n\\nMeu Primeiro Título\\nMeu primeiro parágrafo.\\n\\n\\n', metadados={'origem': 'exemplo_de_dados/conteudo-falso.html', 'título': 'Título de Teste'})]