División por Carácter
LangChain es el método más sencillo para dividir texto. Se basa en caracteres (por defecto, es "\n\n") para la división y mide la longitud de los fragmentos por el número de caracteres.
- Cómo se divide el texto: Se divide por caracteres individuales.
- Cómo se mide el tamaño del fragmento: Se mide por el número de caracteres.
Instalación del Paquete
%pip install -qU langchain-text-splitters
Ejemplos
with open('../../../estado_de_la_unión.txt') as f:
estado_de_la_union = f.read()
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n",
chunk_size=1000,
chunk_overlap=200,
length_function=len,
)
textos = text_splitter.create_documents([estado_de_la_union])
print(textos[0])
contenido_página='Señora Presidenta, Señora Vicepresidenta ...' cadena_búsqueda='' metadatos={} índice_búsqueda=0
Este es un ejemplo de cómo pasar metadatos junto con el documento, por favor, ten en cuenta cómo se divide junto con el documento.
metadatos = [{"documento": 1}, {"documento": 2}]
documentos = text_splitter.create_documents([estado_de_la_union, estado_de_la_union], metadatos=metadatos)
print(documentos[0])
contenido_página='.. Ignorando texto ..' cadena_búsqueda='' metadatos={'documento': 1} índice_búsqueda=0
text_splitter.split_text(estado_de_la_union)[0]