キーワード解説

GPT-4V等のマルチモーダルLLMを搭載した視覚情報を解釈するエージェント構築

GPT-4VのようなマルチモーダルLLMを利用し、画像や動画から視覚情報を解釈・推論できるAIエージェントを構築する具体的な手順と応用例を紹介します。

0 関連記事