División por Carácter

LangChain es el método más sencillo para dividir texto. Se basa en caracteres (por defecto, es "\n\n") para la división y mide la longitud de los fragmentos por el número de caracteres.

  1. Cómo se divide el texto: Se divide por caracteres individuales.
  2. Cómo se mide el tamaño del fragmento: Se mide por el número de caracteres.

Instalación del Paquete

%pip install -qU langchain-text-splitters

Ejemplos

with open('../../../estado_de_la_unión.txt') as f:
    estado_de_la_union = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
textos = text_splitter.create_documents([estado_de_la_union])
print(textos[0])
contenido_página='Señora Presidenta, Señora Vicepresidenta ...' cadena_búsqueda='' metadatos={} índice_búsqueda=0

Este es un ejemplo de cómo pasar metadatos junto con el documento, por favor, ten en cuenta cómo se divide junto con el documento.

metadatos = [{"documento": 1}, {"documento": 2}]
documentos = text_splitter.create_documents([estado_de_la_union, estado_de_la_union], metadatos=metadatos)
print(documentos[0])
contenido_página='.. Ignorando texto ..' cadena_búsqueda='' metadatos={'documento': 1} índice_búsqueda=0
text_splitter.split_text(estado_de_la_union)[0]