Richtlinien

Die Qualität der Extraktionsergebnisse hängt von vielen Faktoren ab.

Hier sind einige Richtlinien, um die beste Leistung aus Ihren Modellen herauszuholen:

Setzen Sie die Modelltemperatur auf 0.
Verbessern Sie die Anweisung. Die Anweisung sollte präzise und auf den Punkt gebracht sein.
Dokumentieren Sie das Schema: Stellen Sie sicher, dass das Schema dokumentiert ist, um mehr Informationen für das LLM bereitzustellen.
Bieten Sie Referenzbeispiele an! Vielfältige Beispiele können hilfreich sein, einschließlich solcher, bei denen nichts extrahiert werden sollte.
Wenn Sie viele Beispiele haben, verwenden Sie einen Retriever, um die relevantesten Beispiele abzurufen.
Benchmark mit dem besten verfügbaren LLM/Chat-Modell (z.B. gpt-4, claude-3, usw.) – klären Sie mit dem Modellanbieter, welches das neueste und beste ist!
Falls das Schema sehr umfangreich ist, versuchen Sie, es in mehrere kleinere Schemata aufzuteilen, führen Sie separate Extraktionen durch und fusionieren Sie die Ergebnisse.
Stellen Sie sicher, dass das Schema es dem Modell erlaubt, die Extraktion von Informationen abzULEHNEN. Wenn das nicht der Fall ist, wird das Modell gezwungen sein, Informationen zu erfinden!
Fügen Sie Verifizierungs-/Korrekturschritte hinzu (bitten Sie ein LLM, die Ergebnisse der Extraktion zu korrigieren oder zu überprüfen).

Beachten Sie!

LLMs sind großartig, aber nicht für alle Fälle erforderlich! Wenn Sie Informationen aus einer einzigen strukturierten Quelle extrahieren (z.B. LinkedIn), ist die Verwendung eines LLM keine gute Idee – herkömmliches Web-Scraping ist viel kostengünstiger und zuverlässiger.
Mensch in der Schleife Wenn Sie perfekte Qualität benötigen, sollten Sie wahrscheinlich planen, einen Menschen in den Prozess einzubeziehen – selbst die besten LLMs werden Fehler machen, wenn es um komplexe Extraktionsaufgaben geht.