Richtlinien

Die Qualität der Extraktionsergebnisse hängt von vielen Faktoren ab.

Hier sind einige Richtlinien, um die beste Leistung aus Ihren Modellen herauszuholen:

  • Setzen Sie die Modelltemperatur auf 0.
  • Verbessern Sie die Anweisung. Die Anweisung sollte präzise und auf den Punkt gebracht sein.
  • Dokumentieren Sie das Schema: Stellen Sie sicher, dass das Schema dokumentiert ist, um mehr Informationen für das LLM bereitzustellen.
  • Bieten Sie Referenzbeispiele an! Vielfältige Beispiele können hilfreich sein, einschließlich solcher, bei denen nichts extrahiert werden sollte.
  • Wenn Sie viele Beispiele haben, verwenden Sie einen Retriever, um die relevantesten Beispiele abzurufen.
  • Benchmark mit dem besten verfügbaren LLM/Chat-Modell (z.B. gpt-4, claude-3, usw.) – klären Sie mit dem Modellanbieter, welches das neueste und beste ist!
  • Falls das Schema sehr umfangreich ist, versuchen Sie, es in mehrere kleinere Schemata aufzuteilen, führen Sie separate Extraktionen durch und fusionieren Sie die Ergebnisse.
  • Stellen Sie sicher, dass das Schema es dem Modell erlaubt, die Extraktion von Informationen abzULEHNEN. Wenn das nicht der Fall ist, wird das Modell gezwungen sein, Informationen zu erfinden!
  • Fügen Sie Verifizierungs-/Korrekturschritte hinzu (bitten Sie ein LLM, die Ergebnisse der Extraktion zu korrigieren oder zu überprüfen).

Beachten Sie!

  • LLMs sind großartig, aber nicht für alle Fälle erforderlich! Wenn Sie Informationen aus einer einzigen strukturierten Quelle extrahieren (z.B. LinkedIn), ist die Verwendung eines LLM keine gute Idee – herkömmliches Web-Scraping ist viel kostengünstiger und zuverlässiger.
  • Mensch in der Schleife Wenn Sie perfekte Qualität benötigen, sollten Sie wahrscheinlich planen, einen Menschen in den Prozess einzubeziehen – selbst die besten LLMs werden Fehler machen, wenn es um komplexe Extraktionsaufgaben geht.