Tách theo ký tự
LangChain là phương pháp đơn giản nhất để tách văn bản. Nó dựa trên các ký tự (mặc định là "\n\n") để tách và đo độ dài của các phần bằng số ký tự.
- Cách tách văn bản: Nó được tách thành từng ký tự riêng lẻ.
- Cách đo kích thước các phần: Nó được đo bằng số ký tự.
Cài đặt gói
%pip install -qU langchain-text-splitters
Ví dụ
with open('../../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
page_content='Bà Chủ tịch, Bà Phó Tổng thống ...' lookup_str='' metadata={} lookup_index=0
Đây là một ví dụ về việc truyền dữ liệu siêu dữ liệu cùng với tài liệu, hãy lưu ý cách nó được tách cùng với tài liệu.
metadatas = [{"tài liệu": 1}, {"tài liệu": 2}]
tài_liệu = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)
print(tài_liệu[0])
page_content='.. Bỏ qua văn bản ..' lookup_str='' metadata={'tài liệu': 1} lookup_index=0
text_splitter.split_text(state_of_the_union)[0]