機械学習による動画広告の視聴完了率およびCTR予測モデルの構築

「Deep Learningはまだ早い」動画広告CTR予測でGBDTを選び精度とコストを両立させた意思決定プロセス

2026年1月5日約17分で読めます

文字サイズ:

「Deep Learningはまだ早い」動画広告CTR予測でGBDTを選び精度とコストを両立させた意思決定プロセス

この記事の要点

動画広告の視聴完了率・CTRを高精度で予測
広告配信の最適化とROI向上に貢献
推論速度・コスト・解釈性を考慮した技術選定

プロジェクトの岐路：なぜ私たちは「最新」を捨てたのか

動画広告の予測モデルにおいて、Deep Learning（深層学習）は魅力的な選択肢です。技術書や論文では、動画解析の最前線として3D-CNNやTransformerベースのアーキテクチャが主流として紹介されています。実際、Transformerのエコシステムは急速に進化しており、最近のメジャーアップデートでは内部設計がモジュール型へと大きく刷新されました。PyTorchを中心とした最適化が進み、外部の推論ツールとの連携や量子化モデルのサポートが強化される一方で、レガシーとなったTensorFlowのサポートが終了するなど、明確な技術の世代交代が起きています。

しかし、実際のリアルタイム入札（RTB）環境に目を向けると、技術の先進性だけでは解決できないビジネス上の厳格な制約条件が立ちはだかります。

AIコンサルタントの視点からシステム全体を俯瞰すると、動画広告の分野特有のボトルネックが見えてきます。処理すべきデータ量が膨大であるにもかかわらず、推論に許される時間はわずか数ミリ秒という極めて短い制約があるのです。最新のDeep Learningモデルは表現力や精度面で優れているものの、このシビアな応答速度（レイテンシ）の要件や運用時のインフラコストを考慮すると、実際の業務環境への適用が現実的ではないケースは決して珍しくありません。このような課題を解決するための堅実なアプローチとして、勾配ブースティング決定木（GBDT）をコア技術として採用する手法が有効です。

最先端の重厚なアーキテクチャを見送り、あえてGBDTを選択することは、計算コストを大幅に抑えつつ、クリック率（CTR）と獲得単価（CPA）の改善を両立させるための合理的な判断と言えます。AIトレンドの華やかな表舞台の裏側には、こうしたリソースと精度のトレードオフを見極める冷静な技術選定のプロセスが存在します。そして、GBDTの性能を最大限に引き出すためには、データ構造を深く理解した上での緻密な特徴量エンジニアリング（データから予測に役立つ特徴を抽出する作業）が大きな鍵を握ります。

予測モデルの内製化や高度化を検討されているプロダクトマネージャーやデータサイエンス部門の責任者の方々にとって、本記事で解説する技術選定の考え方や実践的なアプローチが、制約の多いプロジェクトを成功に導くための確かな指針となるはずです。

プロジェクト背景：静止画モデルの流用による限界と機会損失

動画広告の配信最適化においては、「動画広告在庫の増加」と「予測精度の停滞」という課題が頻出します。

月間10億インプレッションを支える配信基盤の課題

5Gの普及に伴い、多くの配信プラットフォームでは動画広告の在庫が大幅に増加しています。しかし、配信ロジックのCTR予測モデルは、数年前に構築された「静止画バナー広告」向けのものがベースになっているケースが少なくありません。

静止画用のモデルは、広告枠の位置、ユーザーの属性、過去のクリック履歴、バナーのサイズやテキスト情報などを特徴量として学習します。これらは動画広告においても有効ですが、「時間軸」の視点が欠けています。

動画広告では、ユーザーが数秒間視聴し、興味を持って初めてクリック行動に移ります。既存のシステムでは、動画の中身（クリエイティブ）を考慮せず、「動画広告」という一つのカテゴリとして扱ってしまうことがあり、本来相性の良いユーザーに配信されるべき高品質な動画広告が、入札価格の計算ミスによって競り負ける事態が発生しやすくなります。

静止画向け予測モデルを動画に適用した際の精度の壁

既存モデルの予測値と実績値を比較すると、動画広告における予測精度は、静止画に比べて低い傾向が見られます。予測CTRが高く出ているにもかかわらず、実際にはほとんどクリックされないケースや、その逆の過小評価のケースが散見されます。

これは、モデルが「動画の魅力」を数値化できていないことを示しています。例えば、冒頭の1秒でユーザーの心を掴むような動画も、淡々と商品説明をする動画も、モデルから見れば同じように扱われてしまいます。これでは、クリエイティブの質を正当に評価し、最適なユーザーにマッチングさせることは困難です。

視聴完了率（VTR）とCTRの相関分析で見えた乖離

動画広告特有の指標である「視聴完了率（VTR: View Through Rate）」とCTRの関係性を分析すると、興味深い傾向が見えてきます。

一般的に、動画を最後まで見たユーザーはクリックする確率が高いと考えられます。しかし、実際のデータからは、「視聴完了率は高いがクリックされない」動画や、「視聴完了率は低いが、冒頭で興味を引いてすぐにクリックされる」動画など、パターンは複雑であることが示唆されます。

静止画モデルの流用では、この「視聴行動」を予測プロセスに組み込むことができません。CTRを正確に予測するためには、その前段階である「視聴完了率（または特定の秒数までの視聴率）」を同時に、あるいは多段階で予測する必要があるという仮説が成り立ちます。

モデルのチューニングだけでは限界があり、動画そのものの情報を理解し、ユーザーの動画消費を予測する新たなアーキテクチャが必要です。このアーキテクチャ選定が、プロジェクトの成否を分ける分岐点となります。

技術選定の分岐点：なぜ流行りのDeep Learningを採用しなかったのか

技術選定の分岐点：なぜ流行りのDeep Learningを採用しなかったのか - Section Image

動画解析の領域では、かつてCNN（畳み込みニューラルネットワーク）とRNN（リカレントニューラルネットワーク）を組み合わせたモデルが一般的な選択肢とされていました。しかし現在、RNNは機械学習の基礎的なアーキテクチャという位置づけになり、長いシーケンスを扱う際の勾配消失問題に対処するため、時系列データ処理にはLSTMやGRUが優先されています。さらに並列処理が求められるタスクでは、Transformer（Attention機構）へと主流が移行しています。

こうした最先端のDeep Learning技術は飛躍的な表現力を持つ一方で、実際のシステム構築においては、ビジネス要件を冷静に評価する必要があります。

検討候補：NN（Neural Network） vs GBDT（LightGBM/XGBoost）

技術選定のフェーズでは、主に以下の2つのアプローチが比較検討されます。

Deep Learningアプローチ: 動画のフレーム画像や音声を直接入力とし、End-to-Endで特徴量を学習させる手法。前述のTransformerなどを活用することで表現力は極めて高くなりますが、計算コストが膨大になりやすく、モデル内部がブラックボックス化しやすい側面があります。
GBDT（勾配ブースティング決定木）アプローチ: 動画から事前に特徴量を抽出し、構造化データとしてLightGBMやXGBoostに入力する手法。特徴量設計に一定の手間はかかりますが、学習および推論が非常に高速であり、モデルの解釈性が高いというメリットがあります。

精度のポテンシャルだけを追求すれば、Deep Learningに分があるのは間違いありません。しかし、実際のビジネス環境への実装を考えると、精度以外の要素が深刻なボトルネックとなるケースが頻発します。

推論レイテンシと学習コストのシビアなトレードオフ

多くのアドプラットフォームにおいて、最も厳しい制約となるのが「推論レイテンシ（応答遅延）」です。RTB（リアルタイム入札）の仕組みでは、リクエストを受信してからミリ秒単位の短い時間で入札額を決定し、レスポンスを返すことが求められます。

複雑化したDeep Learningモデルを推論サーバーで稼働させる場合、高性能なGPUインスタンスが欠かせません。商用レベルのトラフィックを処理するために必要なGPUサーバーの台数を試算すると、インフラコストが跳ね上がるリスクが浮き彫りになります。たとえCTRの予測精度がわずかに向上したとしても、インフラ費用の増加分を吸収して利益を捻出するのは至難の業です。

その点、GBDT（特にLightGBM）はCPUベースの環境でも極めて高速に動作します。推論スピードが速いため、既存の標準的なサーバー構成をそのまま流用できるのも大きな強みです。厳しいレイテンシの制約下であっても、複雑なアンサンブル学習を組み込む余地が生まれます。

ビジネス上の総合的な判断として、運用コストを適切にコントロールしながら、最大限の精度を追求するバランス感覚が問われます。

「解釈可能性」が広告主への説明責任に不可欠だった理由

もう一つ、決して見落とせない要素が「解釈可能性（Explainability）」です。

広告運用の現場では、広告主から「なぜこのユーザー層に広告が配信されなかったのか」「なぜこの動画クリエイティブのCTR予測が低く算出されたのか」といった厳しい問いかけを受ける場面が珍しくありません。数億個のパラメータを持つDeep Learningモデルでは、その判断根拠を人間が理解できる形で説明するのは非常に困難です。

これに対しGBDTであれば、SHAP（SHapley Additive exPlanations）値などの分析手法を用いることで、予測の背景にある理由を明確に提示できます。たとえば、「動画の冒頭3秒間で視覚的な動きが少なかったため、予測スコアが低下しました」や「この時間帯の特定のユーザー属性には、過去の実績から青を基調とした配色の動画が好まれない傾向があります」といった、具体的で納得感のあるフィードバックが可能になります。

クライアントに対する説明責任を果たすことは、技術的な予測性能を高めることと同等に価値があります。中身がわからない「魔法の箱」に依存するのではなく、論理的かつ透明性のある「説明可能なエンジン」を構築することが、長期的な信頼関係の構築につながるのです。

実装の核心：動画クリエイティブからの「マルチモーダル特徴量」抽出

実装の核心：動画クリエイティブからの「マルチモーダル特徴量」抽出 - Section Image

GBDTを選択した場合、モデルの精度は特徴量の質に依存します。Deep Learningが自動で行う特徴抽出を、人間の知恵とエンジニアリングで代替する必要があります。ここでは、業務プロセスに組み込みやすい特徴量エンジニアリングが重要になります。

動画ファイルを「画像」「音声」「メタデータ」の3つの側面から分析し、数値データへと変換します。

動画の「冒頭3秒」を数値化する画像解析アプローチ

動画広告において、最初の数秒が重要です。OpenCVなどの画像処理ライブラリを使用し、以下の特徴量を生成することが有効です。

シーン転換率（Scene Cut Rate）: 冒頭3秒間で画面が切り替わった回数。テンポの良さを数値化します。
輝度・彩度のヒストグラム統計量: 画面全体の明るさや鮮やかさ。平均値だけでなく、分散や歪度も計算し、「パッと見の印象」を数値化します。
オプティカルフローの平均強度: 画面内で物体が動いている度合い。「動きの激しい動画」か「静止画に近い動画」かを区別します。
主要オブジェクトの占有率: 人物の顔、テキスト領域、商品などが画面のどれくらいを占めているか。YOLOなどの軽量な物体検出モデルをオフラインで回し、その結果を集計値として特徴量に加えます。

これらはリアルタイムで計算するのではなく、動画入稿時にバッチ処理で計算し、Feature Store（特徴量ストア）に保存しておく運用が現実的です。推論時はIDをキーにしてこれらの数値を参照するため、レイテンシへの影響は少なくなります。

音声テキスト化（ASR）と感情分析の組み合わせ

動画には音声情報も含まれます。ここでも処理の軽量化を考慮します。

音声の有無とボリューム変化: 音声が入っているか、BGMの盛り上がりはどこにあるか。
発話速度: 1分間あたりの単語数。早口で情報を伝えているか、ゆったりとしたナレーションか。
感情スコア: 音声波形から「喜び」「怒り」「悲しみ」などの感情成分を抽出。

さらに、ASR（自動音声認識）を用いて音声をテキスト化し、そこからTF-IDFやBERTでベクトル化したものを、PCA（主成分分析）で低次元に圧縮してGBDTに入力する手法があります。これにより、「特定のキーワードが含まれるとCTRが上がる」といった傾向をモデルに学習させることが可能になります。

メタデータ（長さ、アスペクト比）とコンテキスト情報の統合

基本的なメタデータも重要です。

動画の長さ（Duration）: 6秒、15秒、30秒など。
アスペクト比: 横型（16:9）、正方形（1:1）、縦型（9:16）。スマホ全画面での表示か、フィード内での表示かによって、最適なアスペクト比は異なります。

これらに加え、配信面のコンテキスト情報（アプリのカテゴリ、記事のキーワードなど）と動画の特徴量を組み合わせた「交差特徴量」を作成することも効果的です。例えば、「ニュースアプリ × 落ち着いたトーンの動画」や「ゲームアプリ × 動きの激しい動画」といった組み合わせの効果を捉えるためです。

このように、非構造化データである動画を数値列に変換することで、GBDTでもDeep Learningに匹敵する予測精度を実現できる基盤を整えることができます。

直面した壁と解決策：スパースなデータと「冷たいスタート」問題

直面した壁と解決策：スパースなデータと「冷たいスタート」問題 - Section Image 3

特徴量が揃っても、運用フェーズをシミュレーションすると、新たな課題が発生することがあります。それが「コールドスタート問題」です。

新規出稿広告（配信実績なし）の予測精度低下問題

機械学習モデルは過去のデータを学習します。しかし、広告配信システムには毎日大量の「新規動画広告」が入稿されます。これらには過去の配信実績（インプレッションやクリックの履歴）がありません。

既存のモデルでは、実績のない広告は「平均的なCTR」で推論されるか、予測不能となってしまうことが多くあります。その結果、新作クリエイティブも配信機会が与えられず、データが蓄積されないという問題が発生します。

類似広告クラスタリングによるコールドスタート対策

この問題を解決するために、「類似クリエイティブによる補完」というアプローチが考えられます。

作成した「動画特徴量（画像・音声・メタデータ）」を使って、過去に配信された動画広告をクラスタリング（グループ化）しておきます。新規の動画が入稿された際、その動画がどのクラスターに属するかを判定し、そのクラスター内の過去の動画の平均CTRやVTRを「初期値」として利用します。

例えば、「食品系・明るい色調・アップテンポなBGM・15秒」という特徴を持つ新規動画が入稿された場合、過去の同様の特徴を持つ動画群のパフォーマンスを参照します。これにより、実績がない状態でも精度の高い仮説を持って配信を開始できます。

学習データの不均衡是正とサンプリング戦略

また、動画広告のデータは「スパース（疎）」で「不均衡」です。数百万回のインプレッションに対して、クリックは数千回、コンバージョンは数十回しか発生しません。クリックされなかったデータに埋もれて、モデルが「クリックされない」と学習してしまうバイアスがかかります。

これに対しては、負例のダウンサンプリング（クリックされなかったデータを間引く）を行い、正例（クリックされたデータ）との比率を調整する手法が一般的です。予測難易度の高い負例を優先的に学習データに残すことで、モデルの識別能力を向上させることができます。

導入成果とROI検証：CTR1.2倍、CPA15%改善のインパクト

数ヶ月にわたる開発と検証を経て新モデルを本番環境に投入する際は、まずはトラフィックの一部（例えば10%）を新モデルに割り当てるA/Bテストから開始することが推奨されます。

A/Bテストによる旧モデルとの性能比較結果

適切に導入した場合、以下のような効果が期待できます。

CTR（クリック率）: 旧モデル比で向上。
VTR（視聴完了率）: 旧モデル比で向上。
AUC（予測精度の指標）: 大幅改善。

これまで配信されていなかった動画広告の中に、特定のユーザー層に合うものが含まれていることが明らかになるケースがあります。特徴量エンジニアリングによって動画の中身を理解できるようになったことで、マッチングの精度が向上します。

広告主が得られた実質的な配信効率改善（CPA/ROAS）

プラットフォーム側の指標だけでなく、広告主側の指標も改善する傾向にあります。無駄なインプレッションが減ることで、CPA（獲得単価）が低下します。これは、同じ予算でより多くのコンバージョンを獲得できるようになったことを意味します。

モデル開発・運用コストに対する投資対効果

Deep Learningによる動画解析基盤を構築した場合と比較して、GBDTを採用した場合はインフラコストの増加がわずかで済むケースが多いです。

開発期間も、特徴量の作成とGBDTのチューニングに集中できるため、比較的早期にリリースすることが可能になります。

今後の展望：次世代モデルへの布石とMLOpsの強化

GBDTの採用で成果を上げることは可能ですが、技術は常に進化しています。継続的な改善が不可欠です。

特徴量パイプラインの自動化と再学習サイクルの短縮

初期段階では動画の特徴量抽出ロジックの一部を手動でメンテナンスすることもありますが、長期的にはこれを完全に自動化し、MLOpsパイプラインに組み込むことが求められます。トレンドの変化に合わせて、特徴量選択（Feature Selection）を行う仕組みを構築することで、運用負荷を下げつつモデルの鮮度を保つことが重要です。

将来的なDeep Learning導入へのロードマップ

Deep Learningの導入を視野に入れる企業も増えています。推論専用チップの進化や、モデルの蒸留（Distillation）技術の成熟により、低レイテンシ・低コストでDeep Learningモデルを運用できる可能性が高まっています。

その時に備えて、ログとして動画データとユーザーの反応を蓄積し続けることが推奨されます。構築したGBDTモデルは、将来的にDeep Learningモデルを構築する際のベースラインとなり、GBDTの特徴量をDeep Learningの入力の一部として使うハイブリッド構成への発展も考えられます。

プロジェクトから得られた「データ品質」への教訓

実務の現場から得られる教訓は、「アルゴリズムの複雑さよりも、データの質（特徴量の質）が重要である」ということです。AIモデルを探す前に、手元にあるデータ（動画クリエイティブ）を観察し、ビジネスの意味合いを込めて数値化することが重要です。

もし、動画広告の予測モデルや、大規模なデータ分析プロジェクトで技術選定に迷っている場合は、「最新の技術」を使うことが目的になっていないか、「既存の技術」にまだ活用できる要素がないかを検討してみてください。

まとめ

動画広告のCTR予測において、Deep LearningではなくGBDTを選択することで、以下のような成果が期待できます。

コスト効率: 既存インフラを活用し、推論コストを抑制。
説明可能性: 特徴量の寄与度を可視化し、透明性を確保。
高精度: マルチモーダルな特徴量エンジニアリングにより、CTRを向上。

AIプロジェクトの成功は、技術の難易度ではなく、ビジネス課題への適合度で決まります。自社のリソースと課題に最適なアーキテクチャ設計を検討してください。

「Deep Learningはまだ早い」動画広告CTR予測でGBDTを選び精度とコストを両立させた意思決定プロセス - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...