लैंगचेन वर्णन विभाजन

वर्ण द्वारा विभाजन

LangChain टेक्स्ट को विभाजित करने का सबसे सरल तरीका है। यह विभाजन के लिए व्यक्तिगत वर्णों (डिफ़ॉल्ट रूप से, यह "\n\n" है) पर आधारित है और टुकड़ों की लंबाई को वर्णों की संख्या द्वारा मापता है।

पाठ कैसे विभाजित होता है: इसे व्यक्तिगत वर्णों द्वारा विभाजित किया जाता है।
टुकड़ों की आकार कैसे मापा जाता है: इसे वर्णों की संख्या द्वारा मापा जाता है।

पैकेज इंस्टालेशन

%pip install -qU langchain-text-splitters

उदाहरण

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)

texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])

page_content='मैडम स्पीकर, मैडम वाइस प्रेसिडेंट ...' lookup_str='' metadata={} lookup_index=0

यह एक उदाहरण है जिसमें दस्तावेज के साथ मेटाडेटा को पारित करने का तरीका है, कृपया ध्यान दें कि यह दस्तावेज के साथ विभाजित कैसे किया गया है।

metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])

page_content='.. टेक्स्ट नजरअंदाज ..' lookup_str='' metadata={'document': 1} lookup_index=0

text_splitter.split_text(state_of_the_union)[0]

वर्ण द्वारा विभाजन

पैकेज इंस्टालेशन

उदाहरण

संबंधित शिक्षण