キーワード解説

LoRAとDPO(Direct Preference Optimization)を組み合わせた人間への調整

LoRAとDPOを組み合わせ、LLMを人間の好みや価値観に調整する手法。より自然でユーザーフレンドリーな応答を生成するモデル構築を目指します。

0 関連記事