वर्ण द्वारा विभाजन
LangChain टेक्स्ट को विभाजित करने का सबसे सरल तरीका है। यह विभाजन के लिए व्यक्तिगत वर्णों (डिफ़ॉल्ट रूप से, यह "\n\n" है) पर आधारित है और टुकड़ों की लंबाई को वर्णों की संख्या द्वारा मापता है।
- पाठ कैसे विभाजित होता है: इसे व्यक्तिगत वर्णों द्वारा विभाजित किया जाता है।
- टुकड़ों की आकार कैसे मापा जाता है: इसे वर्णों की संख्या द्वारा मापा जाता है।
पैकेज इंस्टालेशन
%pip install -qU langchain-text-splitters
उदाहरण
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='मैडम स्पीकर, मैडम वाइस प्रेसिडेंट ...' lookup_str='' metadata={} lookup_index=0
यह एक उदाहरण है जिसमें दस्तावेज के साथ मेटाडेटा को पारित करने का तरीका है, कृपया ध्यान दें कि यह दस्तावेज के साथ विभाजित कैसे किया गया है।
metadatas = [{"document": 1}, {"document": 2}]
documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(documents[0])
page_content='.. टेक्स्ट नजरअंदाज ..' lookup_str='' metadata={'document': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]