ガイドライン

ガイドライン

抽出結果の品質は多くの要因に依存しています。

以下は、モデルから最高のパフォーマンスを引き出すためのガイドラインです：

モデルの温度を 0 に設定する。
プロンプトを改善する。プロンプトは正確で要点を突いている必要があります。
スキーマを文書化する：スキーマが文書化されていることを確認し、LLMにより多くの情報を提供します。
参照例を提供する！さまざまな例が役立ちます。何も抽出すべきではない例も含めると良いです。
多くの例がある場合は、リトリーバを使用して最も関連性の高い例を取得します。
最高の利用可能なLLM/チャットモデル（例：gpt-4、claude-3など）でベンチマークを行います。最新かつ最高のモデルはどれか、モデルの提供元に確認してください！
スキーマが非常に大きい場合は、複数の小さなスキーマに分割し、個々の抽出を実行し、結果をマージします。
モデルに情報の抽出を拒否する機能があることを確認します。そうでない場合、モデルは情報をでっち上げることになります！
検証/修正手順を追加する（LLMによって抽出された結果を修正または検証するように求める）。

心に留めておくべきこと！

LLMは素晴らしいですが、すべてのケースで必須ではありません！単一の構造化されたソース（例：LinkedIn）から情報を抽出する場合、LLMを使用するのは良い考えではありません。従来のWebスクレイピングがより安価で信頼性があります。
人間を介在させる 完璧な品質が必要な場合、おそらく人間を介在させる必要があります。最高のLLMでさえ、複雑な抽出タスクに対処する際には間違いを comいてしまうことがあります。