Linee guida

La qualità dei risultati di estrazione dipende da molti fattori.

Ecco un insieme di linee guida per aiutarti a ottenere le migliori prestazioni dai tuoi modelli:

  • Imposta la temperatura del modello a 0.
  • Migliora il prompt. Il prompt dovrebbe essere preciso e conciso.
  • Documenta lo schema: assicurati che lo schema sia documentato per fornire maggiori informazioni al LLM.
  • Fornisci esempi di riferimento! Esempi diversificati possono aiutare, inclusi esempi in cui non dovrebbe essere estratto nulla.
  • Se hai molti esempi, utilizza un retriever per recuperare gli esempi più rilevanti.
  • Effettua un benchmark con il miglior modello LLM/Chat disponibile (ad esempio, gpt-4, claude-3, ecc.) – verifica con il fornitore del modello quale sia il più recente e performante!
  • Se lo schema è molto ampio, prova a suddividerlo in più schemi più piccoli, esegui estrazioni separate e unisci i risultati.
  • Assicurati che lo schema permetta al modello di RIFIUTARE l'estrazione di informazioni. Se non lo fa, il modello sarà costretto a inventare informazioni!
  • Aggiungi passaggi di verifica/correzione (chiedi a un LLM di correggere o verificare i risultati dell'estrazione).

Tieni presente!

  • I LLM sono fantastici, ma non sono necessari per tutti i casi! Se stai estraendo informazioni da una singola fonte strutturata (ad esempio, LinkedIn), utilizzare un LLM non è una buona idea – lo scraping tradizionale sarà molto più economico e affidabile.
  • umano nel processo Se hai bisogno di qualità perfetta, probabilmente dovrai considerare l'impiego di un'umanità nel processo – anche i migliori LLM commetteranno errori nell'affrontare compiti di estrazione complessi.