Karaktere Göre Bölme

LangChain, metin bölme için en basit yöntemdir. Varsayılan olarak, bölme işlemi "\n\n" karakterlerine dayanır ve parçaların uzunluğunu karakter sayısına göre ölçer.

  1. Metnin nasıl bölündüğü: Metin, bireysel karakterlere göre bölünür.
  2. Parça boyutu nasıl ölçülür: Karakter sayısına göre ölçülür.

Paket Kurulumu

%pip install -qU langchain-text-splitters

Örnekler

with open('../../../devletin_durumu.txt') as f:
    devletin_durumu = f.read()
from langchain_text_splitters import KarakterMetinBolucu

metin_bolucu = KarakterMetinBolucu(        
    ayirici="\n\n",
    parça_boyutu=1000,
    parça_örtüşme=200,
    uzunluk_fonksiyonu=len,
)
metinler = metin_bolucu.belgeler_oluştur([devletin_durumu])
print(metinler[0])
sayfa_içeriği='Hanım Başkan, Hanım Başkan Yardımcısı ...' arama_dizisi='' meta_veri={} arama_indeksi=0

Bu, belge ile birlikte meta verilerinin iletilmesi örneğidir, lütfen belge ile birlikte nasıl bölündüğüne dikkat edin.

meta_veriler = [{"belge": 1}, {"belge": 2}]
belgeler = metin_bolucu.belgeler_oluştur([devletin_durumu, devletin_durumu], meta_veriler=meta_veriler)
print(belgeler[0])
metin_bolucu.metni_böl(devletin_durumu)[0]