ガイドライン

抽出結果の品質は多くの要因に依存しています。

以下は、モデルから最高のパフォーマンスを引き出すためのガイドラインです:

  • モデルの温度を 0 に設定する。
  • プロンプトを改善する。プロンプトは正確で要点を突いている必要があります。
  • スキーマを文書化する:スキーマが文書化されていることを確認し、LLMにより多くの情報を提供します。
  • 参照例を提供する!さまざまな例が役立ちます。何も抽出すべきではない例も含めると良いです。
  • 多くの例がある場合は、リトリーバを使用して最も関連性の高い例を取得します。
  • 最高の利用可能なLLM/チャットモデル(例:gpt-4、claude-3など)でベンチマークを行います。最新かつ最高のモデルはどれか、モデルの提供元に確認してください!
  • スキーマが非常に大きい場合は、複数の小さなスキーマに分割し、個々の抽出を実行し、結果をマージします。
  • モデルに情報の抽出を拒否する機能があることを確認します。そうでない場合、モデルは情報をでっち上げることになります!
  • 検証/修正手順を追加する(LLMによって抽出された結果を修正または検証するように求める)。

心に留めておくべきこと!

  • LLMは素晴らしいですが、すべてのケースで必須ではありません!単一の構造化されたソース(例:LinkedIn)から情報を抽出する場合、LLMを使用するのは良い考えではありません。従来のWebスクレイピングがより安価で信頼性があります。
  • 人間を介在させる 完璧な品質が必要な場合、おそらく人間を介在させる必要があります。最高のLLMでさえ、複雑な抽出タスクに対処する際には間違いを comいてしまうことがあります。