キーワード解説
LoRAとDPO(Direct Preference Optimization)を組み合わせた人間への調整
LoRAとDPOを組み合わせ、LLMを人間の好みや価値観に調整する手法。より自然でユーザーフレンドリーな応答を生成するモデル構築を目指します。
0 関連記事
LoRAとDPO(Direct Preference Optimization)を組み合わせた人間への調整とは
親クラスター「LoRA微調整」の解説よりLoRAとDPOを組み合わせ、LLMを人間の好みや価値観に調整する手法。より自然でユーザーフレンドリーな応答を生成するモデル構築を目指します。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません