キーワード解説
人間のフィードバックによる強化学習(RLHF)を用いたAIの価値観アライメント
人間からの直接的なフィードバックを活用し、AIの行動や出力が人間の価値観や意図と一致するように調整するRLHFの仕組みを解説します。
0 関連記事
人間のフィードバックによる強化学習(RLHF)を用いたAIの価値観アライメントとは
親クラスター「報酬設計」の解説より人間からの直接的なフィードバックを活用し、AIの行動や出力が人間の価値観や意図と一致するように調整するRLHFの仕組みを解説します。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません