Aufteilen nach Zeichen
LangChain ist die einfachste Methode zum Aufteilen von Text. Es basiert auf Zeichen (standardmäßig "\n\n") zum Aufteilen und misst die Länge der Abschnitte anhand der Anzahl der Zeichen.
- Wie der Text aufgeteilt wird: Er wird nach einzelnen Zeichen aufgeteilt.
- Wie die Abschnittsgröße gemessen wird: Sie wird anhand der Anzahl der Zeichen gemessen.
Paketinstallation
%pip install -qU langchain-text-splitters
Beispiele
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Frau Sprecherin, Frau Vizepräsidentin ...' lookup_str='' metadata={} lookup_index=0
Dies ist ein Beispiel dafür, wie Metadaten zusammen mit dem Dokument übergeben werden. Beachten Sie bitte, wie es neben dem Dokument aufgeteilt wird.
metadatas = [{"Dokument": 1}, {"Dokument": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. Ignorieren des Textes ..' lookup_str='' metadata={'Dokument': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]