キーワード解説

DPO(直接選好最適化)を用いた国産LLMの人間フィードバック学習の自動化

DPO(Direct Preference Optimization)技術を活用し、人間からのフィードバックを基に国産LLMの性能を自動的に向上させる手法を解説します。

0 関連記事