LangChain Séparation par Caractère

Fractionnement par caractère

LangChain est la méthode la plus simple pour fractionner du texte. Il est basé sur les caractères (par défaut, c'est "\n\n") pour le fractionnement et mesure la longueur des morceaux par le nombre de caractères.

Comment le texte est fractionné : Il est fractionné par caractères individuels.
Comment la taille des morceaux est mesurée : Elle est mesurée par le nombre de caractères.

Installation du package

%pip install -qU langchain-text-splitters

Exemples

with open('../../../state_of_the_union.txt', encoding='utf-8') as f:
    state_of_the_union = f.read()

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)

texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])

contenu_page='Madame la Présidente, Madame la Vice-Présidente ...' chaîne_de_recherche='' métadonnées={} indice_de_recherche=0

C'est un exemple de passage de métadonnées avec le document, veuillez noter comment il est fractionné aux côtés du document.

métadonnées = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=métadonnées)
print(documents[0])

contenu_page='.. Ignorer le texte ..' chaîne_de_recherche='' métadonnées={'document': 1} indice_de_recherche=0

text_splitter.split_text(state_of_the_union)[0]

Fractionnement par caractère

Installation du package

Exemples

Tutoriels Associés