Divisione per carattere

LangChain è il metodo più semplice per dividere il testo. Si basa sui singoli caratteri (per default, è "\n\n") per la suddivisione e misura la lunghezza dei blocchi in base al numero di caratteri.

  1. Come avviene la divisione del testo: Viene diviso per singoli caratteri.
  2. Come viene misurata la dimensione del blocco: Viene misurata in base al numero di caratteri.

Installazione del pacchetto

%pip install -qU langchain-text-splitters

Esempi

with open('../../../state_of_the_union.txt') as f:
    stato_dell_unione = f.read()
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(        
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)
testi = text_splitter.create_documents([stato_dell_unione])
print(testi[0])
contenuto_pagina='Signora Presidente, Signora Vice Presidente ...' stringa_ricerca='' metadati={} indice_ricerca=0

Questo è un esempio di come passare i metadati insieme al documento, si prega di notare come vengano divisi insieme al documento.

metadati = [{"documento": 1}, {"documento": 2}]
documenti = text_splitter.create_documents([stato_dell_unione, stato_dell_unione], metadati=metadati)
print(documenti[0])
contenuto_pagina='.. Ignorando testo ..' stringa_ricerca='' metadati={'documento': 1} indice_ricerca=0
text_splitter.split_text(stato_dell_unione)[0]