Aufteilen nach Zeichen

LangChain ist die einfachste Methode zum Aufteilen von Text. Es basiert auf Zeichen (standardmäßig "\n\n") zum Aufteilen und misst die Länge der Abschnitte anhand der Anzahl der Zeichen.

  1. Wie der Text aufgeteilt wird: Er wird nach einzelnen Zeichen aufgeteilt.
  2. Wie die Abschnittsgröße gemessen wird: Sie wird anhand der Anzahl der Zeichen gemessen.

Paketinstallation

%pip install -qU langchain-text-splitters

Beispiele

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Frau Sprecherin, Frau Vizepräsidentin ...' lookup_str='' metadata={} lookup_index=0

Dies ist ein Beispiel dafür, wie Metadaten zusammen mit dem Dokument übergeben werden. Beachten Sie bitte, wie es neben dem Dokument aufgeteilt wird.

metadatas = [{"Dokument": 1}, {"Dokument": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. Ignorieren des Textes ..' lookup_str='' metadata={'Dokument': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]