キーワード解説
報酬モデル(Reward Model)を用いたプロンプト評価の自動化とフィードバックループ
人間の好みを学習した報酬モデルがプロンプトの品質を自動評価し、そのフィードバックを基にプロンプトを繰り返し改善する、強化学習的なアプローチです。
0 関連記事
報酬モデル(Reward Model)を用いたプロンプト評価の自動化とフィードバックループとは
親クラスター「自動最適化」の解説より人間の好みを学習した報酬モデルがプロンプトの品質を自動評価し、そのフィードバックを基にプロンプトを繰り返し改善する、強化学習的なアプローチです。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません