حرفوں کے ذریعے تقسیم
LangChain متن کو تقسیم کرنے کا سب سے آسان طریقہ ہے۔ یہ ابتدائی طور پر حروف (پہلے ٹائم، یہ "\n\n" ہوتا ہے) کے بنیاد پر تقسیم کرتا ہے اور ٹکڑوں کی لمبائی حروف کی تعداد سے ناپتا ہے۔
- متن کیسے تقسیم ہوتا ہے: اسے انفرادی حروف کی بنیاد پر تقسیم کیا جاتا ہے۔
- ٹکڑوں کی لمبائی کیسے ناپی جاتی ہے: اسے حروف کی تعداد سے ناپا جاتا ہے۔
پیکیج کی تنصیب
%pip install -qU langchain-text-splitters
مثالیں
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='میڈم اسپیکر، میڈم وائس پریزیڈنٹ ...' lookup_str='' metadata={} lookup_index=0
یہ مثال میٹا ڈیٹا کو دستیاب کرانے کے ساتھ دستاویز کو پاس کرنے کی ہے، براہ کرم نوٹ کریں کہ یہ کیسے دستاویز کے ساتھ تقسیم کیا گیا ہے۔
metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. متن کو نظرانداز کرتے ہوئے ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]