Linee guida
La qualità dei risultati di estrazione dipende da molti fattori.
Ecco un insieme di linee guida per aiutarti a ottenere le migliori prestazioni dai tuoi modelli:
- Imposta la temperatura del modello a
0
. - Migliora il prompt. Il prompt dovrebbe essere preciso e conciso.
- Documenta lo schema: assicurati che lo schema sia documentato per fornire maggiori informazioni al LLM.
- Fornisci esempi di riferimento! Esempi diversificati possono aiutare, inclusi esempi in cui non dovrebbe essere estratto nulla.
- Se hai molti esempi, utilizza un retriever per recuperare gli esempi più rilevanti.
- Effettua un benchmark con il miglior modello LLM/Chat disponibile (ad esempio, gpt-4, claude-3, ecc.) – verifica con il fornitore del modello quale sia il più recente e performante!
- Se lo schema è molto ampio, prova a suddividerlo in più schemi più piccoli, esegui estrazioni separate e unisci i risultati.
- Assicurati che lo schema permetta al modello di RIFIUTARE l'estrazione di informazioni. Se non lo fa, il modello sarà costretto a inventare informazioni!
- Aggiungi passaggi di verifica/correzione (chiedi a un LLM di correggere o verificare i risultati dell'estrazione).
Tieni presente!
- I LLM sono fantastici, ma non sono necessari per tutti i casi! Se stai estraendo informazioni da una singola fonte strutturata (ad esempio, LinkedIn), utilizzare un LLM non è una buona idea – lo scraping tradizionale sarà molto più economico e affidabile.
- umano nel processo Se hai bisogno di qualità perfetta, probabilmente dovrai considerare l'impiego di un'umanità nel processo – anche i migliori LLM commetteranno errori nell'affrontare compiti di estrazione complessi.