最新の生成AIによって作成された動画を目にする機会が、日常的に増えています。
画面の中では、著名な人物が自然なスピーチをしています。瞬きのタイミング、口元の筋肉の動き、照明の反射――どこからどう見ても本物です。少なくとも、画素(ピクセル)のレベルでは完璧に再現されていると言えます。
しかし、AIモデルの挙動を日々検証しているエンジニアの視点でこれらの動画を分析すると、ある種の「違和感」に気づくことがあります。正確には、「人間が本来持っているはずの生理的な変化がないことへの違和感」です。人間が熱弁を振るえば、交感神経が刺激され、心拍数が上がり、顔色は微細に紅潮します。しかし、生成AIが作り出した動画の人物は、激しい言葉とは裏腹に、皮膚の下が「生理学的に静止」しているケースが珍しくありません。
まるで美しい蝋人形のように、生命活動の根本である心臓の鼓動が感じられないのです。
企業のセキュリティ担当者や経営層が現在直面しているのは、まさにこのレベルまで高度化した脅威です。2024年初頭の海外の多国籍企業での事例では、ディープフェイクを用いたWeb会議により約39億円もの詐欺被害が発生したと報告されています(複数の国際的な報道機関の事実報道による)。CEOのなりすましや、採用面接での本人確認(eKYC)の突破など、ディープフェイクはもはや実験室の技術ではなく、実社会における「明確な脅威」となっています。
人間の目は容易に騙されてしまいますが、科学的なアプローチを用いれば決して見逃すことのない「ある痕跡」が存在します。それは「血流」です。
なぜ高度なAIモデルであっても、表面的な顔の造作は完璧に模倣できるのに、正しい脈拍や血流の変化を再現できないのでしょうか。そして、防御側はそれをどのように検知しているのでしょうか。技術的な数式は一旦脇に置き、生体情報とAI技術が交差する、この興味深いメカニズムを紐解いていきましょう。
人間の目視限界:なぜ私たちは「作られた顔」に騙されるのか
まず、冷徹な事実から始めなければなりません。もはや、人間の目で最新のディープフェイクを見抜くことは、ほぼ不可能です。
巧妙化するディープフェイクの現状
数年前まで、ディープフェイク動画には明確な欠点がありました。瞬きをしない、耳の形状がおかしい、背景が歪むといった「グリッチ(不具合)」です。セキュリティ研修で「ここを見てください」と指導できた時代は、残念ながら終わりました。
現在の生成AI、特に拡散モデル(Diffusion Model)や最新のGAN(敵対的生成ネットワーク)は、ピクセル単位での整合性を極限まで高めています。髪の毛一本一本の揺れや、皮膚の毛穴の質感までも再現可能です。
Meta(旧Facebook)などが主導したコンペティション「Deepfake Detection Challenge (DFDC)」の結果や、近年の学術研究(例えば、マサチューセッツ工科大学やスタンフォード大学の研究者らによる報告)が示唆するように、人間が最新のディープフェイク動画を「偽物」と判定できる正解率は、50%程度――つまりコイン投げの確率と大差ないところまで低下しているケースもあります。私たちはもはや「勘」でしか判断できていないのが実情です。
「不気味の谷」を超えた生成AIの進化
かつてロボット工学の世界で語られた「不気味の谷」現象をご存知でしょうか。人間そっくりのロボットを見たときに感じる、あの特有の嫌悪感のことですが、最新のAIはこの谷を軽々と飛び越えました。
今のAIは、人間が「人間らしい」と感じる要素を大量のデータから学習し、それを過剰なまでに最適化して出力します。結果として、本物の人間よりも「信頼できそう」に見える顔すら生成できるようになりました。
ここで重要なのは、「見た目のリアルさ」と「生物としての実在性」は別物だということです。私たちはこれまで、見た目がリアルならそこに命があると思い込んできました。悪意ある攻撃者は、この人間の認知バイアスを突いてきます。
だからこそ、私たちは視覚情報だけに頼らない、別の「証拠」を探す必要があるのです。
「脈」は隠せない:血流解析(rPPG)の基本原理
では、どうやって「生物としての証拠」を見つけるのでしょうか。ここで登場するのが、rPPG(リモート光電容積脈波:remote Photoplethysmography)という技術です。
名前は難しそうですが、原理は皆さんが手首につけているスマートウォッチや、病院で指に挟むパルスオキシメーターとほとんど同じです。
スマートウォッチと同じ原理をカメラで実現
スマートウォッチの裏側を見ると、緑色の光が点滅していますよね。あれは、皮膚の下を流れる血液の量を測っているのです。
心臓がドクンと拍動すると、動脈に血液が送り出され、血管がわずかに膨らみます。血液中のヘモグロビンは光(特に緑色の光)をよく吸収する性質があります。そのため、血液量が多い瞬間(収縮期)は光がより多く吸収され、反射してくる光が減ります。逆に血液量が少ない瞬間(拡張期)は反射光が増えます。
この反射光の強弱のリズムを読み取ることで、心拍数を計測しているのです。
人間の皮膚がわずかに色を変えるメカニズム
「でも、Webカメラには緑色のライトなんてついていないし、顔に接触もしないじゃないか」と思われたかもしれません。ここがrPPGの面白いところです。
実は、人間の顔は環境光(部屋の照明や太陽光)を反射していますが、その色味は心拍に合わせてごくわずかに変化しています。人間の目では到底感知できないレベルですが、一般的なWebカメラのRGBセンサー(赤・緑・青の色を感じるセンサー)にとっては、十分に検知可能な変化なのです。
具体的には、顔の映像から「緑色成分」の微細な明滅パターンを抽出することで、カメラに触れることなく、まるで嘘発見器のように脈拍波形を取得できます。
これがrPPG技術の核心です。「顔色を伺う」という言葉がありますが、AIはこの言葉通り、顔色のデータの揺らぎから心臓の鼓動を聞き取っているわけです。
なぜAI生成動画には「正しい血流」が存在しないのか
ここで本記事の最大の疑問に答えます。なぜ、最新のAIは「脈拍」まで再現できないのでしょうか?
表面を模倣するAIと、内面から生じる生理現象
答えはシンプルです。AIは「皮」を作っているだけで、「中身」を作っていないからです。
現在の画像生成AIは、大量の顔写真や動画データを学習しています。「笑ったときは目尻が下がる」「口が開くと歯が見える」といった視覚的なパターンは完璧に学習しています。しかし、AIは人体解剖学や循環器系の生理学を理解しているわけではありません。
AIにとって、顔はあくまで「ピクセルの配列」です。皮膚の下に血管があり、心臓というポンプが一定のリズムで血液を送っているという物理的な因果関係モデルを持っていません。
時系列データの不整合:脈のリズムが狂う理由
静止画であれば、たまたま「血色がよい」顔を生成することは可能です。しかし、動画となると話は別です。
本物の人間であれば、1秒間に約1回〜1.5回(心拍数60〜90bpm)のリズムで、顔全体の色が同期して変化します。額も、頬も、顎も、同じタイミングで血液が流れ込みます。
一方、ディープフェイク動画は、フレーム(コマ)ごとに画像を生成・合成しています。あるフレームでは赤みが強く、次のフレームでは弱く、といった変化は起きますが、そこには「心臓の鼓動」という統一されたリズムがありません。
さらに、顔のパーツごとに変化がバラバラになることもあります。右頬は脈打っているのに、左頬は静止している、といった生理学的にあり得ない現象(Spatial Inconsistency:空間的不整合)が発生します。
rPPG技術を使った検知システムは、この「リズムの不在」や「リズムの不整合」を見逃しません。「見た目は人間だが、脈がない(あるいは脈がデタラメ)」という状態を検知した瞬間、システムは「これは作り物だ(FAKE)」と判定を下すのです。
真贋判定のプロセス:動画から「嘘」を見抜く3ステップ
では、実際のセキュリティシステムの中で、この技術はどう動いているのでしょうか。ブラックボックスになりがちなAIの処理を、3つのステップで可視化してみましょう。
ステップ1:顔領域のトラッキングと信号抽出
まず、入力されたビデオ映像から「顔」を見つけ出します。ここまでは普通の顔認証と同じです。
次に、顔の中から「皮膚が露出している部分」を特定します。額や頬が適していますね。メガネや髪の毛、髭などはノイズになるので除外します。この特定された領域(ROI: Region of Interest)から、フレームごとの平均的な色信号(特に緑チャンネル)を時系列データとして抽出します。
ステップ2:ノイズ除去と脈波パターンの解析
抽出された生のデータは、実はノイズだらけです。被写体が頭を動かしたり、部屋の照明がフリッカー(ちらつき)を起こしていたりすると、それが偽の信号になってしまいます。
ここで、高度な信号処理技術(独立成分分析:ICAなど)を使います。頭の動きによる光の変化を計算して差し引いたり、心拍数としてあり得ない周波数帯(例えば1分間に300回など)をカットしたりして、純粋な「脈波信号」だけを取り出します。
ステップ3:生体反応としての「もっともらしさ」の判定
最後に、取り出した信号が「人間の脈波として自然か」を判定します。
- 本物の人間: 規則的なピークがあり、医学的に妥当な波形(PPG波形)を描く。
- ディープフェイク: 波形がランダムなノイズに近い、あるいは周期性が全くない。
最近のソリューションでは、この信号パターンをさらに別のAI(分類器)に読ませて、「本物らしさスコア」を算出するのが一般的です。スコアが閾値を下回れば、アラートを発報します。
導入前に知っておくべき技術的な制約と可能性
「これは魔法の杖だ!」と思われたかもしれませんが、実運用を考える上で、技術的な弱点についても把握しておく必要があります。どんな技術にも限界はあります。
照明環境や画質による精度の変化
rPPGは「微細な色の変化」を見ているため、画質や環境に強く依存します。
- 暗所: ノイズが増え、色の変化が埋もれてしまいます。一般的なWebカメラでは、ある程度の照度が必要です。
- 激しい逆光: 顔が黒つぶれすると、色情報の抽出が困難になり検知不能になります。
- 低ビットレート: Web会議などで映像が強く圧縮されると、ブロックノイズが発生し、脈波情報が失われることがあります。
また、被写体が激しく動き回っている場合も、モーショントラッキングが追いつかず精度が落ちることがあります。
eKYCやWeb会議での実用ケース
逆に言えば、環境がある程度コントロールできる場面では極めて強力です。
- eKYC(本人確認): 「明るい場所で、カメラを正面に向けて静止してください」という指示が出せるため、rPPGにとって理想的な環境です。免許証の顔写真との照合に加え、この「生体検知(Liveness Detection)」を行うことで、写真の悪用やディープフェイク攻撃を強力にブロックできます。
- 重要なWeb会議: 役員会議や商談など、参加者がデスクに座って落ち着いて話す場面でも有効です。リアルタイムで参加者の「生体反応」をモニタリングし、不審な挙動(脈波の消失など)があれば警告を出すツールも開発されています。
まとめ:いたちごっこのサイバーセキュリティで生き残るために
技術は常に進化し、防御側と攻撃側のいたちごっこは続きます。いずれ、心拍変動までもシミュレートする生成AIが登場するかもしれません。
しかし、現時点において「生物学的アプローチ」は、ディープフェイクに対する最も論理的で強力な盾の一つです。
マルチモーダル検知への進化
これからのセキュリティは、単一の技術に頼るのではなく、「多層防御」が基本になります。
- 画像の不整合検知(ピクセル解析)
- 音声の真贋判定(周波数解析)
- 生理学的解析(rPPGによる血流検知)
これらを組み合わせる「マルチモーダル検知」こそが、AI時代のリスク管理の最適解です。
「生体らしさ」が最後の砦になる
デジタルデータはいとも簡単に複製・改ざんできますが、生命現象そのものを完璧に模倣するのは、まだしばらく先の話です。私たち人間が持つ「脈動」というアナログな信号が、デジタルの嘘を見抜く最後の砦になるというのは、なんとも皮肉で、同時に希望を感じさせる話ではないでしょうか。
もし、自社の本人確認フローやセキュリティシステムに不安を感じているなら、専門家にご相談いただくことをお勧めします。
コメント