Directives

La qualité des résultats d'extraction dépend de nombreux facteurs.

Voici un ensemble de directives pour vous aider à obtenir les meilleures performances de vos modèles :

Réglez la température du modèle sur 0.
Améliorez la requête. Elle doit être précise et concise.
Documentez le schéma : Assurez-vous que le schéma est documenté pour fournir plus d'informations au LLM.
Fournissez des exemples de référence ! Des exemples divers peuvent aider, y compris des exemples où rien ne devrait être extrait.
Si vous avez beaucoup d'exemples, utilisez un dispositif de recherche pour récupérer les exemples les plus pertinents.
Faites des tests avec le meilleur modèle de LLM/Chat disponible (par exemple, gpt-4, claude-3, etc.) – vérifiez avec le fournisseur du modèle lequel est le dernier et le meilleur !
Si le schéma est très grand, essayez de le diviser en plusieurs schémas plus petits, exécutez des extractions séparées et fusionnez les résultats.
Assurez-vous que le schéma permet au modèle de REJETER l'extraction d'informations. Sinon, le modèle sera contraint d'inventer des informations !
Ajoutez des étapes de vérification/correction (demandez à un LLM de corriger ou de vérifier les résultats de l'extraction).

Gardez à l'esprit!

Les LLM sont formidables, mais ne sont pas nécessaires dans tous les cas ! Si vous extrayez des informations d'une seule source structurée (par exemple, LinkedIn), l'utilisation d'un LLM n'est pas une bonne idée - le déroulement traditionnel du scraping web sera beaucoup moins coûteux et fiable.
l'humain est dans la boucle Si vous avez besoin d'une qualité parfaite, il est probable que vous devrez prévoir la participation d'un humain dans le processus – même les meilleurs LLM feront des erreurs dans le cadre de tâches complexes d'extraction.