キーワード解説
マルチモーダルAIによる映像解析(唇の動き)を併用した音声認識
音声情報に加え、映像から得られる唇の動きなどの視覚情報を併用することで、より高精度な音声認識を実現するマルチモーダルAIの可能性を探ります。
0 関連記事
マルチモーダルAIによる映像解析(唇の動き)を併用した音声認識とは
親クラスター「文字起こし精度」の解説より音声情報に加え、映像から得られる唇の動きなどの視覚情報を併用することで、より高精度な音声認識を実現するマルチモーダルAIの可能性を探ります。
このキーワードが属するテーマ
このキーワードに紐付く記事はまだありません