ガイドライン
抽出結果の品質は多くの要因に依存しています。
以下は、モデルから最高のパフォーマンスを引き出すためのガイドラインです:
- モデルの温度を
0
に設定する。 - プロンプトを改善する。プロンプトは正確で要点を突いている必要があります。
- スキーマを文書化する:スキーマが文書化されていることを確認し、LLMにより多くの情報を提供します。
- 参照例を提供する!さまざまな例が役立ちます。何も抽出すべきではない例も含めると良いです。
- 多くの例がある場合は、リトリーバを使用して最も関連性の高い例を取得します。
- 最高の利用可能なLLM/チャットモデル(例:gpt-4、claude-3など)でベンチマークを行います。最新かつ最高のモデルはどれか、モデルの提供元に確認してください!
- スキーマが非常に大きい場合は、複数の小さなスキーマに分割し、個々の抽出を実行し、結果をマージします。
- モデルに情報の抽出を拒否する機能があることを確認します。そうでない場合、モデルは情報をでっち上げることになります!
- 検証/修正手順を追加する(LLMによって抽出された結果を修正または検証するように求める)。
心に留めておくべきこと!
- LLMは素晴らしいですが、すべてのケースで必須ではありません!単一の構造化されたソース(例:LinkedIn)から情報を抽出する場合、LLMを使用するのは良い考えではありません。従来のWebスクレイピングがより安価で信頼性があります。
- 人間を介在させる 完璧な品質が必要な場合、おそらく人間を介在させる必要があります。最高のLLMでさえ、複雑な抽出タスクに対処する際には間違いを comいてしまうことがあります。