Linee guida

La qualità dei risultati di estrazione dipende da molti fattori.

Ecco un insieme di linee guida per aiutarti a ottenere le migliori prestazioni dai tuoi modelli:

Imposta la temperatura del modello a 0.
Migliora il prompt. Il prompt dovrebbe essere preciso e conciso.
Documenta lo schema: assicurati che lo schema sia documentato per fornire maggiori informazioni al LLM.
Fornisci esempi di riferimento! Esempi diversificati possono aiutare, inclusi esempi in cui non dovrebbe essere estratto nulla.
Se hai molti esempi, utilizza un retriever per recuperare gli esempi più rilevanti.
Effettua un benchmark con il miglior modello LLM/Chat disponibile (ad esempio, gpt-4, claude-3, ecc.) – verifica con il fornitore del modello quale sia il più recente e performante!
Se lo schema è molto ampio, prova a suddividerlo in più schemi più piccoli, esegui estrazioni separate e unisci i risultati.
Assicurati che lo schema permetta al modello di RIFIUTARE l'estrazione di informazioni. Se non lo fa, il modello sarà costretto a inventare informazioni!
Aggiungi passaggi di verifica/correzione (chiedi a un LLM di correggere o verificare i risultati dell'estrazione).

Tieni presente!

I LLM sono fantastici, ma non sono necessari per tutti i casi! Se stai estraendo informazioni da una singola fonte strutturata (ad esempio, LinkedIn), utilizzare un LLM non è una buona idea – lo scraping tradizionale sarà molto più economico e affidabile.
umano nel processo Se hai bisogno di qualità perfetta, probabilmente dovrai considerare l'impiego di un'umanità nel processo – anche i migliori LLM commetteranno errori nell'affrontare compiti di estrazione complessi.