HTML
اللغة النصية لتنسيق الوثائق (HTML) هي اللغة القياسية المستخدمة لتصميم الوثائق المعروضة في متصفحات الويب.
يقدم هذا المقال كيفية تحميل LangChain لوثائق HTML في شكل يمكننا استخدامه فيما بعد.
from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='العنوان الأولي\\n\\nفقرتي الأولى.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
تحميل HTML باستخدام BeautifulSoup4
يمكننا أيضًا استخدام BeautifulSoup4 مع BSHTMLLoader
لتحميل وثائق HTML. سيتم استخراج النص من HTML إلى page_content
وتعيين عنوان الصفحة كـ title
في الـ metadata
.
from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nعنوان الاختبار\\n\\n\\nالعنوان الأول\\nفقرة البداية.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'عنوان الاختبار'})]