キーワード解説

DPO(Direct Preference Optimization)によるモデルの論理的思考力の強化

人間の選好データを用いてLLMの報酬モデルを直接最適化することで、より論理的で望ましい推論結果を生成するようモデルを強化する技術です。

0 関連記事