Chargement de données de document LangChain

Chargeur de documents

Le chargeur de documents peut être utilisé pour charger des données à partir de diverses sources de données. Les données chargées à partir de la source sont stockées dans langchain en tant qu'objet « Document », représentant un document. L'objet « Document » contient un morceau de texte et des métadonnées associées.

Le chargeur de documents expose une méthode "charger" pour charger des données à partir de la source de données configurée. Ils peuvent également choisir de mettre en œuvre le "chargement paresseux" pour charger commodément les données en mémoire ultérieurement.

Chargement de texte

Le chargeur le plus simple est de charger les données textuelles d'un fichier dans un objet « Document ».

from langchain_community.document_loaders import TextLoader

chargeur = TextLoader("./index.md")
chargeur.charger()

Résultat :

[
    Document(contenu_page='---\\nsidebar_position: 0\\n---\\n# Chargeurs de documents\\n\\nUtilisez des chargeurs de documents pour charger des données depuis une source en tant que `Document`. Un `Document` est un morceau de texte\\net des métadonnées associées. Par exemple, il existe des chargeurs de documents pour charger un simple fichier `.txt`, pour charger le contenu textuel\\nde n'importe quelle page Web, ou même pour charger une transcription d'une vidéo YouTube.\\n\\nChaque chargeur de documents expose deux méthodes :\\n1. "Charger" : charger des documents à partir de la source configurée\\n2. "Charger et diviser" : charger des documents à partir de la source configurée et les diviser à l'aide du séparateur de texte passé en paramètre\\n\\nIls implémentent éventuellement :\\n\\n3. "Chargement paresseux" : charger les documents en mémoire de manière paresseuse\\n', métadonnées={'source': '../docs/docs_skeleton/docs/modules/data_connection/document_loaders/index.md'})
]

Chargeur de documents

Chargement de texte

Tutoriels Associés