Divisão por Caractere
O LangChain é o método mais simples para dividir texto. Ele é baseado em caracteres (por padrão, é "\n\n") para a divisão e mede o comprimento dos pedaços pelo número de caracteres.
- Como o texto é dividido: Ele é dividido por caracteres individuais.
- Como o tamanho do pedaço é medido: É medido pelo número de caracteres.
Instalação do Pacote
%pip install -qU langchain-text-splitters
Exemplos
with open('../../../state_of_the_union.txt') as f:
discurso_estado_união = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separador="\n\n",
tamanho_pedaço=1000,
sobreposição_pedaço=200,
função_comprimento=len,
)
textos = text_splitter.criar_documentos([discurso_estado_união])
print(textos[0])
conteúdo_página='Senhora Presidente, Senhora Vice-Presidente ...' string_busca='' metadados={} índice_busca=0
Este é um exemplo de passagem de metadados juntamente com o documento, por favor, observe como ele é dividido junto com o documento.
metadados = [{"documento": 1}, {"documento": 2}]
documentos = text_splitter.criar_documentos([discurso_estado_união, discurso_estado_união], metadados=metadados)
print(documentos[0])
conteúdo_página='.. Ignorando texto ..' string_busca='' metadados={'documento': 1} índice_busca=0
text_splitter.dividir_texto(discurso_estado_união)[0]