Trình tải tài liệu
Trình tải tài liệu có thể được sử dụng để tải dữ liệu từ các nguồn dữ liệu khác nhau. Dữ liệu tải từ nguồn được lưu trữ trong langchain dưới dạng một đối tượng Document
, đại diện cho một tài liệu. Đối tượng Document
chứa một đoạn văn bản và siêu dữ liệu liên quan.
Trình tải tài liệu tiết lộ một phương thức "load" để tải dữ liệu từ nguồn dữ liệu được cấu hình. Họ cũng có thể chọn cài đặt "tải lười" để dễ dàng tải dữ liệu vào bộ nhớ sau này.
Tải Văn bản
Trình tải đơn giản nhất là tải dữ liệu văn bản của một tệp vào một Document
.
from langchain_community.document_loaders import TextLoader
loader = TextLoader("./index.md")
loader.load()
[
Document(page_content='---\\nsidebar_position: 0\\n---\\n# Trình tải tài liệu\\n\\nSử dụng trình tải tài liệu để tải dữ liệu từ một nguồn như `Document`\\'s. Một `Document` là một đoạn văn bản\\nvà siêu dữ liệu liên quan. Ví dụ, có trình tải tài liệu để tải một tệp `.txt` đơn giản, để tải nội dung văn bản\\ncủa bất kỳ trang web nào, hoặc thậm chí là để tải một bản ghi âm của một video trên YouTube.\\n\\nMỗi trình tải tài liệu tiết lộ hai phương thức:\\n1. "Tải": tải tài liệu từ nguồn được cấu hình\\n2. "Tải và phân chia": tải tài liệu từ nguồn được cấu hình và phân chia chúng bằng cách sử dụng trình chia văn bản được chuyển qua\\n\\nHọ có thể tùy chọn cài đặt:\\n\\n3. "Tải lười": tải tài liệu vào bộ nhớ một cách lười biếng\\n', metadata={'source': '../docs/docs_skeleton/docs/modules/data_connection/document_loaders/index.md'})
]