Загрузчик документов
Загрузчик документов может быть использован для загрузки данных из различных источников данных. Данные, загруженные из источника, хранятся в langchain в виде объекта Document
, представляющего документ. Объект Document
содержит фрагмент текста и связанную метаданные.
Загрузчик документов предоставляет метод "load" для загрузки данных из настроенного источника данных. Также можно выбрать реализацию "отложенной загрузки" для удобной загрузки данных в память в более позднее время.
Загрузка текста
Самый простой загрузчик загружает текстовые данные файла в объект Document
.
from langchain_community.document_loaders import TextLoader
loader = TextLoader("./index.md")
loader.load()
[
Document(page_content='---\\nsidebar_position: 0\\n---\\n# Загрузчики документов\\n\\nИспользуйте загрузчики документов для загрузки данных из источника как объекты `Document`. `Document` представляет собой фрагмент текста\\nи связанные метаданные. Например, существуют загрузчики документов для загрузки простых файлов .txt, для загрузки текстового\\nсодержимого любой веб-страницы или даже для загрузки транскрипции видео с YouTube.\\n\\nКаждый загрузчик документов предоставляет два метода:\\n1. "Загрузить": загрузка документов из настроенного источника\\n2. "Загрузить и разделить": загрузка документов из настроенного источника и разделение их с использованием переданного разделителя текста\\n\\nПо желанию, они могут реализовать:\\n\\n3. "Отложенную загрузку": ленивую загрузку документов в память\\n', metadata={'source': '../docs/docs_skeleton/docs/modules/data_connection/document_loaders/index.md'})
]