वर्ण द्वारा विभाजन

LangChain टेक्स्ट को विभाजित करने का सबसे सरल तरीका है। यह विभाजन के लिए व्यक्तिगत वर्णों (डिफ़ॉल्ट रूप से, यह "\n\n" है) पर आधारित है और टुकड़ों की लंबाई को वर्णों की संख्या द्वारा मापता है।

  1. पाठ कैसे विभाजित होता है: इसे व्यक्तिगत वर्णों द्वारा विभाजित किया जाता है।
  2. टुकड़ों की आकार कैसे मापा जाता है: इसे वर्णों की संख्या द्वारा मापा जाता है।

पैकेज इंस्टालेशन

%pip install -qU langchain-text-splitters

उदाहरण

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='मैडम स्पीकर, मैडम वाइस प्रेसिडेंट ...' lookup_str='' metadata={} lookup_index=0

यह एक उदाहरण है जिसमें दस्तावेज के साथ मेटाडेटा को पारित करने का तरीका है, कृपया ध्यान दें कि यह दस्तावेज के साथ विभाजित कैसे किया गया है।

metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. टेक्स्ट नजरअंदाज ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]