Divisão por Caractere

O LangChain é o método mais simples para dividir texto. Ele é baseado em caracteres (por padrão, é "\n\n") para a divisão e mede o comprimento dos pedaços pelo número de caracteres.

  1. Como o texto é dividido: Ele é dividido por caracteres individuais.
  2. Como o tamanho do pedaço é medido: É medido pelo número de caracteres.

Instalação do Pacote

%pip install -qU langchain-text-splitters

Exemplos

with open('../../../state_of_the_union.txt') as f:
    discurso_estado_união = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separador="\n\n",
    tamanho_pedaço=1000,
    sobreposição_pedaço=200,
    função_comprimento=len,
)
textos = text_splitter.criar_documentos([discurso_estado_união])
print(textos[0])
conteúdo_página='Senhora Presidente, Senhora Vice-Presidente ...' string_busca='' metadados={} índice_busca=0

Este é um exemplo de passagem de metadados juntamente com o documento, por favor, observe como ele é dividido junto com o documento.

metadados = [{"documento": 1}, {"documento": 2}]
documentos = text_splitter.criar_documentos([discurso_estado_união, discurso_estado_união], metadados=metadados)
print(documentos[0])
conteúdo_página='.. Ignorando texto ..' string_busca='' metadados={'documento': 1} índice_busca=0
text_splitter.dividir_texto(discurso_estado_união)[0]