- マルチモーダルAI
- テキスト、画像、音声など複数の異なるデータ形式(モダリティ)を同時に処理し、統合的に理解する人工知能技術です。
- モダリティ
- 情報が表現される形式や種類を指します。例として、テキスト、画像、音声、動画、センサーデータなどがあります。
- LMM(大規模マルチモーダルモデル)
- Large Multimodal Modelの略で、複数のモダリティを大規模なデータで学習し、高度な文脈理解と汎用的な推論能力を持つAIモデルです。
- HMI(人機界面)
- Human Machine Interfaceの略で、人間と機械が情報をやり取りするための接点や手段を指します。マルチモーダルAIにより、より直感的なHMI設計が可能です。
- VQA(視覚応答)
- Visual Question Answeringの略で、画像の内容に関する質問に対し、AIが画像から情報を読み取り、自然言語で回答する技術です。
- クロスモーダル検索
- 異なるモダリティの情報を組み合わせて検索を行う技術です。例えば、テキストで画像を検索したり、画像で関連するテキスト情報を探したりすることが可能です。
- エッジAI
- クラウドではなく、デバイス(エッジ)上でAI処理を行う技術です。リアルタイム性、プライバシー保護、通信コスト削減などのメリットがあります。
- バイオメトリクス
- 指紋、顔、虹彩、音声、心拍などの生体情報を用いて個人を識別・認証する技術です。マルチモーダルAIは感情推論などに応用されます。
- ADAS(先進運転支援システム)
- Advanced Driver-Assistance Systemsの略で、ドライバーの運転を支援し、安全性を向上させるためのシステムです。マルチモーダルAIが応用されています。
- 推論モデルの軽量化
- AIモデルのサイズや計算量を削減し、より高速かつ少ないリソースで動作するように最適化する技術です。エッジデバイスでの利用に不可欠です。
- 学習データセット
- AIモデルの学習に用いられるデータの集合体です。マルチモーダルAIでは、複数の異なるモダリティのデータが統合されて使用されます。
- 感情分析
- テキスト、音声、表情などのデータから、人間の感情(喜び、怒り、悲しみなど)をAIが識別・評価する技術です。
- アノテーション
- AIの学習データに対し、特定の情報(タグ、ラベル、境界ボックスなど)を付与する作業です。マルチモーダルAIでは特に複雑になります。
- アダプティブラーニング
- 学習者の理解度や進捗に合わせて、最適な学習内容や方法をAIが調整・提供する個別最適化学習システムです。
- 生成AI
- テキスト、画像、音声、動画などのコンテンツを自律的に生成するAIです。マルチモーダルAIは、多様な形式での生成を可能にします。
- PoC(概念実証)
- Proof of Conceptの略で、新しいアイデアや技術が実現可能であるか、またその効果やメリットがあるかを検証する初期段階の試行です。