Memisahkan berdasarkan Karakter

LangChain adalah metode paling sederhana untuk membagi teks. Ini didasarkan pada karakter (secara default, adalah "\n\n") untuk membagi dan mengukur panjang potongan berdasarkan jumlah karakter.

  1. Cara teks dipisah: Teks dipisah oleh karakter-karakter individu.
  2. Bagaimana ukuran potongan diukur: Ukurannya dihitung berdasarkan jumlah karakter.

Instalasi Paket

%pip install -qU langchain-text-splitters

Contoh

with open('../../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Ibu Speaker, Ibu Wakil Presiden ...' lookup_str='' metadata={} lookup_index=0

Ini adalah contoh pengiriman metadata bersama dengan dokumen, harap perhatikan bagaimana metadata tersebut dipisahkan bersama dengan dokumen.

metadatas = [{"dokumen": 1}, {"dokumen": 2}]
dokumen = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(dokumen[0])
page_content='.. Mengabaikan teks ..' lookup_str='' metadata={'dokumen': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]