キーワード解説
RLHF(人間からのフィードバックによる強化学習)によるAIの価値観整合
人間の評価や選好をフィードバックとしてAIの学習プロセスに組み込み、より人間の価値観に沿った行動を促す手法です。
0 関連記事
RLHF(人間からのフィードバックによる強化学習)によるAIの価値観整合とは
親クラスター「自律型AIの倫理」の解説より人間の評価や選好をフィードバックとしてAIの学習プロセスに組み込み、より人間の価値観に沿った行動を促す手法です。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません