キーワード解説
RLHF(人間からのフィードバック)によるAIモデルの出力調整と安全性確保
人間からのフィードバック(RLHF)を強化学習に活用し、トランスフォーマーモデルの出力を調整して安全性と有用性を高める手法について解説します。
0 関連記事
RLHF(人間からのフィードバック)によるAIモデルの出力調整と安全性確保とは
親クラスター「LLMのトランスフォーマー」の解説より人間からのフィードバック(RLHF)を強化学習に活用し、トランスフォーマーモデルの出力を調整して安全性と有用性を高める手法について解説します。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません