تقسیم بندی بر اساس حرف

لانگ‌چین ساده‌ترین روش برای تقسیم متن است. این بر اساس حروف (به طور پیشفرض، "\n\n") برای تقسیم و اندازه گیری طول بخش‌ها بر اساس تعداد حروف است.

  1. چگونگی تقسیم متن: به وسیله حروف فرد.
  2. چگونگی اندازه گیری اندازه بخش: با توجه به تعداد حروف.

نصب بسته

%pip install -qU langchain-text-splitters

مثال‌ها

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Madam Speaker, Madam Vice President ...' lookup_str='' metadata={} lookup_index=0

این یک مثال از ارسال اطلاعات فراداده‌ای همراه با سند است، لطفا توجه کنید که چگونه همراه با سند تقسیم شده است.

metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. Ignoring text ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]