キーワード解説
RLHF(人間のフィードバックによる強化学習)によるLlamaモデルの倫理的最適化
Llamaモデルが倫理的な振る舞いをするよう、人間の評価に基づき学習させる手法の概要と、その倫理的最適化への寄与を解説します。
0 関連記事
RLHF(人間のフィードバックによる強化学習)によるLlamaモデルの倫理的最適化とは
親クラスター「安全性と制限」の解説よりLlamaモデルが倫理的な振る舞いをするよう、人間の評価に基づき学習させる手法の概要と、その倫理的最適化への寄与を解説します。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません