Directives
La qualité des résultats d'extraction dépend de nombreux facteurs.
Voici un ensemble de directives pour vous aider à obtenir les meilleures performances de vos modèles :
- Réglez la température du modèle sur
0
. - Améliorez la requête. Elle doit être précise et concise.
- Documentez le schéma : Assurez-vous que le schéma est documenté pour fournir plus d'informations au LLM.
- Fournissez des exemples de référence ! Des exemples divers peuvent aider, y compris des exemples où rien ne devrait être extrait.
- Si vous avez beaucoup d'exemples, utilisez un dispositif de recherche pour récupérer les exemples les plus pertinents.
- Faites des tests avec le meilleur modèle de LLM/Chat disponible (par exemple, gpt-4, claude-3, etc.) – vérifiez avec le fournisseur du modèle lequel est le dernier et le meilleur !
- Si le schéma est très grand, essayez de le diviser en plusieurs schémas plus petits, exécutez des extractions séparées et fusionnez les résultats.
- Assurez-vous que le schéma permet au modèle de REJETER l'extraction d'informations. Sinon, le modèle sera contraint d'inventer des informations !
- Ajoutez des étapes de vérification/correction (demandez à un LLM de corriger ou de vérifier les résultats de l'extraction).
Gardez à l'esprit!
- Les LLM sont formidables, mais ne sont pas nécessaires dans tous les cas ! Si vous extrayez des informations d'une seule source structurée (par exemple, LinkedIn), l'utilisation d'un LLM n'est pas une bonne idée - le déroulement traditionnel du scraping web sera beaucoup moins coûteux et fiable.
- l'humain est dans la boucle Si vous avez besoin d'une qualité parfaite, il est probable que vous devrez prévoir la participation d'un humain dans le processus – même les meilleurs LLM feront des erreurs dans le cadre de tâches complexes d'extraction.