キーワード解説

RLHF(人間からのフィードバック)によるAIモデルの出力調整と安全性確保

人間からのフィードバック(RLHF)を強化学習に活用し、トランスフォーマーモデルの出力を調整して安全性と有用性を高める手法について解説します。

0 関連記事