キーワード解説

RLHF(人間からのフィードバックによる強化学習)によるAIの価値観整合

人間の評価や選好をフィードバックとしてAIの学習プロセスに組み込み、より人間の価値観に沿った行動を促す手法です。

0 関連記事