حرفوں کے ذریعے تقسیم

LangChain متن کو تقسیم کرنے کا سب سے آسان طریقہ ہے۔ یہ ابتدائی طور پر حروف (پہلے ٹائم، یہ "\n\n" ہوتا ہے) کے بنیاد پر تقسیم کرتا ہے اور ٹکڑوں کی لمبائی حروف کی تعداد سے ناپتا ہے۔

  1. متن کیسے تقسیم ہوتا ہے: اسے انفرادی حروف کی بنیاد پر تقسیم کیا جاتا ہے۔
  2. ٹکڑوں کی لمبائی کیسے ناپی جاتی ہے: اسے حروف کی تعداد سے ناپا جاتا ہے۔

پیکیج کی تنصیب

%pip install -qU langchain-text-splitters

مثالیں

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='میڈم اسپیکر، میڈم وائس پریزیڈنٹ ...' lookup_str='' metadata={} lookup_index=0

یہ مثال میٹا ڈیٹا کو دستیاب کرانے کے ساتھ دستاویز کو پاس کرنے کی ہے، براہ کرم نوٹ کریں کہ یہ کیسے دستاویز کے ساتھ تقسیم کیا گیا ہے۔

metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. متن کو نظرانداز کرتے ہوئے ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]