Directives

La qualité des résultats d'extraction dépend de nombreux facteurs.

Voici un ensemble de directives pour vous aider à obtenir les meilleures performances de vos modèles :

  • Réglez la température du modèle sur 0.
  • Améliorez la requête. Elle doit être précise et concise.
  • Documentez le schéma : Assurez-vous que le schéma est documenté pour fournir plus d'informations au LLM.
  • Fournissez des exemples de référence ! Des exemples divers peuvent aider, y compris des exemples où rien ne devrait être extrait.
  • Si vous avez beaucoup d'exemples, utilisez un dispositif de recherche pour récupérer les exemples les plus pertinents.
  • Faites des tests avec le meilleur modèle de LLM/Chat disponible (par exemple, gpt-4, claude-3, etc.) – vérifiez avec le fournisseur du modèle lequel est le dernier et le meilleur !
  • Si le schéma est très grand, essayez de le diviser en plusieurs schémas plus petits, exécutez des extractions séparées et fusionnez les résultats.
  • Assurez-vous que le schéma permet au modèle de REJETER l'extraction d'informations. Sinon, le modèle sera contraint d'inventer des informations !
  • Ajoutez des étapes de vérification/correction (demandez à un LLM de corriger ou de vérifier les résultats de l'extraction).

Gardez à l'esprit!

  • Les LLM sont formidables, mais ne sont pas nécessaires dans tous les cas ! Si vous extrayez des informations d'une seule source structurée (par exemple, LinkedIn), l'utilisation d'un LLM n'est pas une bonne idée - le déroulement traditionnel du scraping web sera beaucoup moins coûteux et fiable.
  • l'humain est dans la boucle Si vous avez besoin d'une qualité parfaite, il est probable que vous devrez prévoir la participation d'un humain dans le processus – même les meilleurs LLM feront des erreurs dans le cadre de tâches complexes d'extraction.