Fractionnement par caractère
LangChain est la méthode la plus simple pour fractionner du texte. Il est basé sur les caractères (par défaut, c'est "\n\n") pour le fractionnement et mesure la longueur des morceaux par le nombre de caractères.
- Comment le texte est fractionné : Il est fractionné par caractères individuels.
- Comment la taille des morceaux est mesurée : Elle est mesurée par le nombre de caractères.
Installation du package
%pip install -qU langchain-text-splitters
Exemples
with open('../../../state_of_the_union.txt', encoding='utf-8') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
contenu_page='Madame la Présidente, Madame la Vice-Présidente ...' chaîne_de_recherche='' métadonnées={} indice_de_recherche=0
C'est un exemple de passage de métadonnées avec le document, veuillez noter comment il est fractionné aux côtés du document.
métadonnées = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=métadonnées)
print(documents[0])
contenu_page='.. Ignorer le texte ..' chaîne_de_recherche='' métadonnées={'document': 1} indice_de_recherche=0
text_splitter.split_text(state_of_the_union)[0]