キーワード解説

マルチモーダルAIによる映像解析(唇の動き)を併用した音声認識

音声情報に加え、映像から得られる唇の動きなどの視覚情報を併用することで、より高精度な音声認識を実現するマルチモーダルAIの可能性を探ります。

0 関連記事