Richtlinien
Die Qualität der Extraktionsergebnisse hängt von vielen Faktoren ab.
Hier sind einige Richtlinien, um die beste Leistung aus Ihren Modellen herauszuholen:
- Setzen Sie die Modelltemperatur auf
0
. - Verbessern Sie die Anweisung. Die Anweisung sollte präzise und auf den Punkt gebracht sein.
- Dokumentieren Sie das Schema: Stellen Sie sicher, dass das Schema dokumentiert ist, um mehr Informationen für das LLM bereitzustellen.
- Bieten Sie Referenzbeispiele an! Vielfältige Beispiele können hilfreich sein, einschließlich solcher, bei denen nichts extrahiert werden sollte.
- Wenn Sie viele Beispiele haben, verwenden Sie einen Retriever, um die relevantesten Beispiele abzurufen.
- Benchmark mit dem besten verfügbaren LLM/Chat-Modell (z.B. gpt-4, claude-3, usw.) – klären Sie mit dem Modellanbieter, welches das neueste und beste ist!
- Falls das Schema sehr umfangreich ist, versuchen Sie, es in mehrere kleinere Schemata aufzuteilen, führen Sie separate Extraktionen durch und fusionieren Sie die Ergebnisse.
- Stellen Sie sicher, dass das Schema es dem Modell erlaubt, die Extraktion von Informationen abzULEHNEN. Wenn das nicht der Fall ist, wird das Modell gezwungen sein, Informationen zu erfinden!
- Fügen Sie Verifizierungs-/Korrekturschritte hinzu (bitten Sie ein LLM, die Ergebnisse der Extraktion zu korrigieren oder zu überprüfen).
Beachten Sie!
- LLMs sind großartig, aber nicht für alle Fälle erforderlich! Wenn Sie Informationen aus einer einzigen strukturierten Quelle extrahieren (z.B. LinkedIn), ist die Verwendung eines LLM keine gute Idee – herkömmliches Web-Scraping ist viel kostengünstiger und zuverlässiger.
- Mensch in der Schleife Wenn Sie perfekte Qualität benötigen, sollten Sie wahrscheinlich planen, einen Menschen in den Prozess einzubeziehen – selbst die besten LLMs werden Fehler machen, wenn es um komplexe Extraktionsaufgaben geht.