Memisahkan berdasarkan Karakter
LangChain adalah metode paling sederhana untuk membagi teks. Ini didasarkan pada karakter (secara default, adalah "\n\n") untuk membagi dan mengukur panjang potongan berdasarkan jumlah karakter.
- Cara teks dipisah: Teks dipisah oleh karakter-karakter individu.
- Bagaimana ukuran potongan diukur: Ukurannya dihitung berdasarkan jumlah karakter.
Instalasi Paket
%pip install -qU langchain-text-splitters
Contoh
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Ibu Speaker, Ibu Wakil Presiden ...' lookup_str='' metadata={} lookup_index=0
Ini adalah contoh pengiriman metadata bersama dengan dokumen, harap perhatikan bagaimana metadata tersebut dipisahkan bersama dengan dokumen.
metadatas = [{"dokumen": 1}, {"dokumen": 2}]
dokumen = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(dokumen[0])
page_content='.. Mengabaikan teks ..' lookup_str='' metadata={'dokumen': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]