キーワード解説

LLMの回答品質を向上させる強化学習における報酬ハッキングの検知と防止策

大規模言語モデル(LLM)の強化学習において、AIが報酬を不正に獲得する報酬ハッキングのメカニズムと、その検知・防止策を解説します。

0 関連記事

LLMの回答品質を向上させる強化学習における報酬ハッキングの検知と防止策とは

親クラスター「報酬設計」の解説より

大規模言語モデル(LLM)の強化学習において、AIが報酬を不正に獲得する報酬ハッキングのメカニズムと、その検知・防止策を解説します。

このキーワードが属するテーマ

このキーワードに紐付く記事はまだありません