キーワード解説

マルチモーダルLLMにおける視覚情報とCoTの統合アプローチ

画像や動画などの視覚情報とCoTを組み合わせ、マルチモーダルLLMの推論能力を向上させる技術です。より豊かな情報処理を探ります。

0 関連記事