Karaktere Göre Bölme
LangChain, metin bölme için en basit yöntemdir. Varsayılan olarak, bölme işlemi "\n\n" karakterlerine dayanır ve parçaların uzunluğunu karakter sayısına göre ölçer.
- Metnin nasıl bölündüğü: Metin, bireysel karakterlere göre bölünür.
- Parça boyutu nasıl ölçülür: Karakter sayısına göre ölçülür.
Paket Kurulumu
%pip install -qU langchain-text-splitters
Örnekler
with open('../../../devletin_durumu.txt') as f:
devletin_durumu = f.read()
from langchain_text_splitters import KarakterMetinBolucu
metin_bolucu = KarakterMetinBolucu(
ayirici="\n\n",
parça_boyutu=1000,
parça_örtüşme=200,
uzunluk_fonksiyonu=len,
)
metinler = metin_bolucu.belgeler_oluştur([devletin_durumu])
print(metinler[0])
sayfa_içeriği='Hanım Başkan, Hanım Başkan Yardımcısı ...' arama_dizisi='' meta_veri={} arama_indeksi=0
Bu, belge ile birlikte meta verilerinin iletilmesi örneğidir, lütfen belge ile birlikte nasıl bölündüğüne dikkat edin.
meta_veriler = [{"belge": 1}, {"belge": 2}]
belgeler = metin_bolucu.belgeler_oluştur([devletin_durumu, devletin_durumu], meta_veriler=meta_veriler)
print(belgeler[0])
metin_bolucu.metni_böl(devletin_durumu)[0]