キーワード解説
RLHF(人間フィードバックによる強化学習)データを活用したプロンプト自動改善ループ
人間からのフィードバックデータを強化学習に利用し、プロンプトを継続的に自動改善するループを構築することで、LLMの応答品質を高める技術です。
0 関連記事
RLHF(人間フィードバックによる強化学習)データを活用したプロンプト自動改善ループとは
親クラスター「MLOpsでのプロンプト管理」の解説より人間からのフィードバックデータを強化学習に利用し、プロンプトを継続的に自動改善するループを構築することで、LLMの応答品質を高める技術です。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません