تقسيم حسب الحرف
LangChain هو أبسط طريقة لتقسيم النصوص. يعتمد على الحروف (افتراضيًا، "\n\n") للتقسيم ويقيس طول الأجزاء بعدد الحروف.
- كيفية تقسيم النص: يتم تقسيمه حسب الحروف الفردية.
- كيفية قياس حجم الجزء: يتم قياسه بعدد الحروف.
تثبيت الحزمة
%pip install -qU langchain-text-splitters
أمثلة
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Madam Speaker, Madam Vice President ...' lookup_str='' metadata={} lookup_index=0
هذا مثال على تمرير البيانات الوصفية مع الوثيقة، يرجى ملاحظة كيف يتم تقسيمها جنبًا إلى جنب مع الوثيقة.
metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. إهمال النص ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]