キーワード解説

Reward Hacking(報酬ハッキング)を防ぐためのAI報酬設計

AIが報酬システムを悪用して意図しない行動を取るリスクを回避するため、頑健な報酬関数を設計する手法について詳しく説明します。

0 関連記事