HTML

اللغة النصية لتنسيق الوثائق (HTML) هي اللغة القياسية المستخدمة لتصميم الوثائق المعروضة في متصفحات الويب.

يقدم هذا المقال كيفية تحميل LangChain لوثائق HTML في شكل يمكننا استخدامه فيما بعد.

from langchain_community.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='العنوان الأولي\\n\\nفقرتي الأولى.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

تحميل HTML باستخدام BeautifulSoup4

يمكننا أيضًا استخدام BeautifulSoup4 مع BSHTMLLoader لتحميل وثائق HTML. سيتم استخراج النص من HTML إلى page_content وتعيين عنوان الصفحة كـ title في الـ metadata.

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nعنوان الاختبار\\n\\n\\nالعنوان الأول\\nفقرة البداية.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'عنوان الاختبار'})]