অক্ষর দ্বারা বিভাজন

LangChain হল পাঠ্য বিভাজনের জনকরা৷ এটি অক্ষরের উপর ভিত্তি করে (ডিফল্ট হিসেবে, "\n\n") বিভাজন করে এবং চাংচার দৈর্ঘ্যকে অক্ষরের সংখ্যা অনুযায়ী মাপে৷

  1. পাঠ্য কিভাবে বিভক্ত হয়: এটি একক অক্ষর দ্বারা বিভক্ত হয়৷
  2. খণ্ডের দৈর্ঘ্য কীভাবে মাপা হয়: এটি অক্ষরের সংখ্যা অনুযায়ী মাপা হয়৷

প্যাকেজ ইনস্টলেশন

%pip install -qU langchain-text-splitters

উদাহরণ

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='ম্যাডাম স্পিকার, ম্যাডাম ভাইস প্রেসিডেন্ট...' lookup_str='' metadata={} lookup_index=0

ডকুমেন্টের সাথে মেটাডেটা পাঠানোর একটি উদাহরণ, দয়াকরে দেখুন যেভাবে এটি ডকুমেন্টের সাথে বিভজিত হয়েছে৷

metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. লেখা অগ্রাহ্য করা হচ্ছে ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]