टोकन स्प्लिटिंग

भाषा मॉडल्स के टोकन सीमा होती है। आपको टोकन सीमा से अधिक नहीं जाना चाहिए। इसलिए, जब टेक्स्ट को टुकड़ों में विभाजित किया जाता है, तो सर्वश्रेष्ठ है कि टोकनों की संख्या की गणना की जाए। कई टोकन प्रोसेसर (टोकनाइजर) उपलब्ध हैं। टेक्स्ट में टोकनों की संख्या को अंदर तकरीबन , Sahi टोकन प्रोसेसर का उपयोग किया जाना चाहिए जैसा कि भाषा मॉडल में किया जाता है।

इस अध्याय में यह बताया गया है कि LangChain कैसे विभिन्न टोकन टोकनाइजर्स का उपयोग टोकनों के आधार पर टेक्स्ट सामग्री को विभाजित करता है।

टिकटोकन

टिकटोकन ओपनएआई द्वारा जारी फास्ट BPE टोकनाइजर है।

हम इसका उपयोग करके उपयोग की गई टोकनों की संख्या का अनुमान लगा सकते हैं। यह openAI मॉडल्स के लिए अधिक सटीक हो सकता है।

टेक्स्ट कैसे विभाजित होता है: प्रविष्टि वर्णों के अनुसार।
टुकड़े की साइज कैसे मापी जाती है: टिकटोकन टोकनाइजर का उपयोग करके।

%pip install --upgrade --quiet langchain-text-splitters tiktoken

with open("../../../state_of_the_union.txt") as f:
    state_of_the_union = f.read()
	
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)

print(texts[0])

Madam Speaker, Madam Vice President, हमारी पहली महिला और दूसरी जेंटलमैन। कांग्रेस के सदस्य और मंत्रिमंडल। सर्वोच्च न्यायालय के न्यायाधीश। मेरे साथी अमेरिकन।  

    पिछले साल COVID-19 ने हमें अलग रखा। इस साल हम अंततः फिर से साथ हैं। 

    आज रात हम डेमोक्रेट्स, रिपब्लिकेंस और इंडिपेंडेंट्स के रूप में मिलते हैं। लेकिन सबसे महत्वपूर्ण रूप से अमेरिकन के रूप में।  

    एक दूसरे के प्रति और संविधान के लिए एक कर्त्तव्य के साथ

हम टिकटोकन स्प्लिटर को सीधे भी लोड कर सकते हैं।

from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(chunk_size=10, chunk_overlap=0)

texts = text_splitter.split_text(state_of_the_union)
print(texts[0])

spaCy

spaCy एक ओपन-सोर्स सॉफ्टवेयर लाइब्रेरी है जो पायथन और साइथन में लिखी गई उन्नत प्राकृतिक भाषा प्रसंस्करण के लिए है।

NLTK का उपयोग करने के लिए एक अन्य विकल्प है spaCy टोकनाइजर.

टेक्स्ट कैसे विभाजित होता है: spaCy टोकनाइजर का उपयोग करके।
टुकड़े की साइज कैसे मापी जाती है: अक्षरों की संख्या को गिनती करके।

with open("../../../state_of_the_union.txt") as f:
    state_of_the_union = f.read()

from langchain_text_splitters import SpacyTextSplitter

text_splitter = SpacyTextSplitter(chunk_size=1000)

texts = text_splitter.split_text(state_of_the_union)
print(texts[0])

SentenceTransformers

SentenceTransformersTokenTextSplitter वाक्य-परिवर्तक मॉडल के लिए विशेष रूप से डिज़ाइन किया गया एक टेक्स्ट स्प्लिटर है। इसका डिफ़ॉल्ट व्यवहार टेक्स्ट को उपयुक्त सेंटेंस-ट्रांसफ़ॉर्मर मॉडल के लिए टोकन विंडो साइज के ब्लॉक में विभाजित करना है।

from langchain_text_splitters import SentenceTransformersTokenTextSplitter

splitter = SentenceTransformersTokenTextSplitter(chunk_overlap=0)
text = "लोरेम "

count_start_and_stop_tokens = 2
text_token_count = splitter.count_tokens(text=text) - count_start_and_stop_tokens
print(text_token_count)

token_multiplier = splitter.maximum_tokens_per_chunk // text_token_count + 1

text_to_split = text * token_multiplier

print(f"विभाजित करने वाले टेक्स्ट में टोकन: {splitter.count_tokens(text=text_to_split)}")

विभाजित करने वाले टेक्स्ट में टोकन: 514

text_chunks = splitter.split_text(text=text_to_split)

print(text_chunks[1])

लोरेम

एनएलटीके

एनटीके, जो आमतौर पर एनएलटीके के रूप में जाना जाता है, यह पायथन प्रोग्रामिंग भाषा में लिखे गए सैंबोलिक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालय और कार्यक्रम है, जो अंग्रेजी के लिए उपयोग होते हैं।

"\n\n" के आधार पर पाठ को बस स्प्लिट करने की बजाय, हम एनएलटीके टोकनाइज़र के आधार पर स्प्लिट करने के लिए एनएलटीके का उपयोग कर सकते हैं।

पाठ विभाजन मेथड: एनएलटीके टोकनाइज़र का उपयोग करते हुए।
चंक आकार का मापन: अक्षरों की संख्या द्वारा मापा गया है।

with open("../../../state_of_the_union.txt") as f:
    state_of_the_union = f.read()

from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(chunk_size=1000)

texts = text_splitter.split_text(state_of_the_union)
print(texts[0])

हगिंग फेस टोकनाइज़र

हगिंग फेस के पास कई टोकनाइज़र्स हैं।

हम हगिंग फेस टोकनाइज़र्स से GPT2TokenizerFast का उपयोग करते हैं टेक्सट में टोकनों की संख्या की गणना के लिए।

पाठ को कैसे खंडित किया जाता है: प्रविष्टि अक्षरों के आधार पर खंडित किया गया है।
चंक आकार का मापन: हगिंग फेस टोकनाइज़र द्वारा गणना की गई टोकनों की संख्या द्वारा मापा गया है।

from transformers import GPT2TokenizerFast

tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

with open("../../../state_of_the_union.txt") as f:
    state_of_the_union = f.read()

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer, chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)

print(texts[0])

लैंगचेन टोकन स्प्लिटिंग सामग्री