マルチモーダル医療AI：画像と読影レポートを紐付けるCLIPモデルのファインチューニング

脱・画像分類｜医療マルチモーダルAI「CLIP」をPyTorchで実装し、レポート読解力を授ける

この記事は急速に進化する技術について解説しています。最新情報は公式ドキュメントをご確認ください。

2026年1月5日約14分で読めます

文字サイズ:

脱・画像分類｜医療マルチモーダルAI「CLIP」をPyTorchで実装し、レポート読解力を授ける

この記事の要点

医用画像と読影レポートの統合分析
CLIPモデルによる画像とテキストの関連付け
ファインチューニングで医療特化型AIを構築

導入：CNNで「分類」する時代は、もう終わりかもしれない

医療画像の解析において、従来の手法による限界を感じることはありませんか。医療AIの開発現場では、いまだに「数千枚のX線画像に医師が手作業でラベルを付け、CNN（畳み込みニューラルネットワーク）で分類モデルを作る」というアプローチが採用されるケースが珍しくありません。もちろん、特定タスクにおいてCNNは依然として強力です。しかし、機械学習モデル構築や業務自動化の観点から見ると、そのアプローチは効率の面で課題が残ります。

医療データの本質的な価値は、画像そのものだけでなく、そこに付随する専門家の「所見（テキスト）」にあります。これは、ゲノム配列（DNA）という単一のデータだけでなく、エピゲノムやトランスクリプトームといったマルチオミクスデータを統合解析することで、生命現象の全体像が初めて浮き彫りになるのと同じ理屈です。画像とテキスト、この2つのモダリティを別々に扱うのではなく、同時に理解させることで、AIの認識能力は劇的に向上します。

現在、OpenAIが提供するChatGPTなどの最新モデルは、画像やテキストを横断的に理解する高度なマルチモーダル機能を標準で備えています。その基盤となる技術思想の一つが、画像とテキストを対照学習するマルチモーダルモデル「CLIP (Contrastive Language-Image Pre-Training)」です。

汎用的なCLIPは「犬」や「猫」は分かりますが、「肺浸潤」や「気胸」といった専門用語は深く理解していません。本記事では、この「医療の言葉」をAIに教え込むプロセスとして、CLIPを医療ドメイン向けにファインチューニング（微調整）する手法を解説します。実際のPyTorchコードを交えながら、実践的な実装手順を紐解きます。

1. 医療AIにおけるCLIPと対照学習のメカニズム

なぜ今、医療画像解析の分野でCLIP（Contrastive Language-Image Pretraining）がこれほどまでに注目を集めているのでしょうか。

従来のCNNを用いた教師あり学習（Supervised Learning）では、画像一枚一枚に対して「肺炎：あり」「腫瘍：なし」といった明確な正解ラベルを付与する膨大なアノテーション作業が不可欠でした。しかし、実際の医療現場には「画像データは大量に存在するが、構造化されたラベルがない」というケースが多数存在します。これは、次世代シーケンサー（NGS）によって膨大な塩基配列データが得られても、その機能アノテーションが追いついていない状況に似ています。一方で、それらの画像には必ずと言っていいほど、専門の放射線科医が記述した「読影レポート（所見テキスト）」が紐付いているという独自の強みがあります。

画像とテキストを同じベクトル空間へ

CLIPの核心的なアプローチは、この「画像」と「レポートテキスト」の自然なペアを利用する対照学習（Contrastive Learning）のメカニズムにあります。

その仕組みはシンプルかつ非常にエレガントです。

画像エンコーダ（Vision Transformerなど）を用いて、X線やCT画像を多次元ベクトルに変換します。
テキストエンコーダ（BERTやGPTベースのアーキテクチャなど）を用いて、読影レポートのテキストをベクトル化します。
正しいペア（同一患者の画像と対応するレポート）のベクトル同士は空間上で近づけ、異なるペアのベクトルは遠ざけるようにモデル全体を学習させます。

このプロセスにより、AIモデルは「肺野に見られる白い浸潤影」という視覚的な特徴と、「肺炎を示唆する所見」という言語的な意味情報を、全く同じベクトル空間（意味空間）で結びつける能力を獲得するのです。タンパク質の立体構造（3D）とそのアミノ酸配列（1D）を同じ潜在空間にマッピングして相互作用を予測する手法と同様に、異なるモダリティの架け橋となる強力なアプローチです。

医療ドメイン特有の課題とファインチューニングの必要性

ここで、「それならば、OpenAIが公開している学習済みの汎用CLIPをそのまま医療画像に適用すればよいのではないか」という疑問が生じるかもしれません。

確かにOpenAIの基盤モデルは急速な進化を遂げています。2026年2月にはGPT-4oなどのレガシーモデルが廃止され、100万トークン級のコンテキストや高度な推論能力を備えたGPT-5.2、さらには開発タスクに最適化されたGPT-5.3-Codexといった新世代モデルへの移行が進むなど、言語処理の基盤能力は飛躍的に向上しています。

しかし、どれほど強力な最新アーキテクチャが登場しても、汎用CLIPはインターネット上の一般的な自然画像（犬や猫、風景など）とキャプションのペアで事前学習されています。そのため、X線やMRIのような微細な濃淡が意味を持つグレースケール画像からの特徴抽出は根本的に苦手としています。さらに、医療ドメイン特有の専門用語（例えば "Pleural effusion" ＝胸水、"Consolidation" ＝浸潤影など）のトークン化や文脈理解も、一般的な言語モデルでは最適化されていません。

だからこそ、医療現場の課題を解決し、AI導入支援を成功させるためには、ドメイン特化型のデータセットを用いた独自のファインチューニングが不可欠となります。本記事では、機械学習モデル構築の観点から、この汎用モデルの限界を突破し、医療画像と読影レポートを深く理解する専用パイプラインをPyTorchでゼロから構築する実践的なアプローチを提示します。

2. 環境構築とデータセットの準備

1. 医療AIにおけるCLIPと対照学習のメカニズム - Section Image

ここから、具体的な実装に入ります。まずは基盤となる環境構築です。今回はHugging Faceの transformers ライブラリを利用してCLIPモデルをロードし、torch を用いて学習パイプラインを構築します。

以下のコマンドで必要なライブラリをインストールしてください。PyTorchは計算環境（CUDAの有無など）に合わせて公式サイトから適切なバージョンを選択してインストールすることを推奨しますが、基本的なCPU環境であれば以下の構成で整います。

pip install torch torchvision transformers pandas pillow

PyTorch Custom Datasetクラスの実装

医療データセットを扱う上で、最も労力を要し、かつモデルの精度を左右する重要な工程が Dataset クラスの実装です。ここでは、CSVファイルに「画像パス」と「所見テキスト」がペアで記載されている想定で、モデルが直接学習できるTensor形式へ変換するクラスを作成します。

ゲノムデータと同様に、実際の医療画像は機微情報（PHI）を含むため、厳格なセキュリティ配慮が不可欠です。ここではデモ目的としてランダムなノイズ画像を生成するロジックを記述していますが、実運用では MIMIC-CXR などの公開データセットのパスや、院内のPACSシステムから取得した画像パスに置き換えて実装してください。

import torch
from torch.utils.data import Dataset, DataLoader
from PIL import Image
import pandas as pd
import numpy as np

class MedicalImageTextDataset(Dataset):
    def __init__(self, dataframe, processor, image_base_path=None):
        """
        Args:
            dataframe (pd.DataFrame): 'image_path', 'caption' カラムを持つDF
            processor (CLIPProcessor): Hugging Faceのプロセッサ
            image_base_path (str): 画像フォルダのルートパス
        """
        self.dataframe = dataframe
        self.processor = processor
        self.image_base_path = image_base_path

    def __len__(self):
        return len(self.dataframe)

    def __getitem__(self, idx):
        row = self.dataframe.iloc[idx]
        caption = row['caption']
        
        # 実運用の場合はここで画像ファイルをロード
        # image_path = f"{self.image_base_path}/{row['image_path']}"
        # image = Image.open(image_path).convert("RGB")
        
        # 今回はデモ用にランダムなノイズ画像を生成（224x224 RGB）
        # ※実際の医療画像はグレースケールが多いですが、CLIPはRGB入力を期待するためconvert("RGB")が必須です
        image = Image.fromarray(np.uint8(np.random.rand(224, 224, 3) * 255))

        # プロセッサを通してTensorに変換
        # padding="max_length", truncation=True でバッチ内のサイズを統一
        inputs = self.processor(
            text=[caption], 
            images=image, 
            return_tensors="pt", 
            padding="max_length", 
            truncation=True,
            max_length=77 # CLIPモデルの仕様に基づく最大トークン長
        )

        # バッチ次元を削除 (DataLoaderがバッチ化する際に自動で付与されるため)
        return {
            "input_ids": inputs.input_ids.squeeze(0),
            "attention_mask": inputs.attention_mask.squeeze(0),
            "pixel_values": inputs.pixel_values.squeeze(0)
        }

# ダミーデータの作成
dummy_data = pd.DataFrame({
    'image_path': [f'img_{i}.jpg' for i in range(100)],
    'caption': [
        'No acute cardiopulmonary process.' if i % 2 == 0 
        else 'Opacity in the right lower lobe suggestive of pneumonia.' 
        for i in range(100)
    ]
})

print("Dataset prepared.")

ここで着目すべきポイントは、CLIPProcessor の活用です。このプロセッサを導入することで、画像の正規化（Normalize）やリサイズ、そしてテキストのトークナイズといった煩雑な処理を一括で実行できます。

特に医療画像解析の現場では、DICOM規格などの高解像度画像を扱うケースが一般的ですが、標準的なCLIPモデルへの入力は 224x224 や 336x336 といった固定の解像度が求められます。processor を介すことで、モデルが事前学習時に用いたデータと同一の前処理（平均値の減算や標準偏差による除算など）が自動的に適用されるため、手動実装による前処理の不整合を未然に防ぐ効果があります。

また、max_length=77 という設定は、CLIPアーキテクチャ特有の厳格な制約です。一般的なBERTモデル（最大512トークン）と比較して入力可能なテキスト長が短いため、放射線科医が記述した長文の所見レポートをそのまま入力するのではなく、臨床的に重要な所見部分のみを抽出、あるいは要約する前処理が、実践的なデータ分析・活用の鍵を握ります。

この要約フェーズにおいて、近年ではLLM（大規模言語モデル）をデータ前処理パイプラインに組み込むアプローチが主流になりつつあります。例えば、OpenAIのAPIを利用する場合、2026年2月にGPT-4o等のレガシーモデルが廃止され、100万トークン級のコンテキストウィンドウと高度な推論能力を備えたGPT-5.2が新たな標準モデルへと移行しました。このような最新モデルを活用して、長文の医療レポートから77トークン以内に収まるようコアな所見を高精度に要約・抽出することで、CLIPの学習効率とマルチモーダルな表現獲得能力を大幅に引き上げることが可能です。

3. Hugging Faceを用いたCLIPモデルの定義

次に、ベースとなるCLIPモデルをロードします。Hugging Faceの transformers ライブラリを活用すれば、複雑なアーキテクチャを持つSOTA（State-of-the-Art）モデルをわずか数行のコードで呼び出すことが可能です。

今回はベースモデルとして openai/clip-vit-base-patch32 を指定します。これはVision Transformer（ViT-B/32）を画像エンコーダに採用した標準的なモデルです。医療画像（例えばX線写真やMRIなど）のマルチモーダルAIを構築する際、まずはこのベースモデルで全体のパイプラインを検証し、より微細な病変の検出など高解像度な局所的特徴を捉える必要が出てきた段階で、パッチサイズの小さいモデル（patch16など）へ移行するアプローチが一般的です。これは、ゲノム解析において、まずは低カバレッジで全体像を把握し、ターゲット領域を絞ってディープシーケンスを行う戦略にも通じます。

from transformers import CLIPProcessor, CLIPModel

# モデルとプロセッサのロード
model_name = "openai/clip-vit-base-patch32"
processor = CLIPProcessor.from_pretrained(model_name)
model = CLIPModel.from_pretrained(model_name)

# GPUが使えるならGPUへ転送
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
model.train() # 学習モードへ

print(f"Model loaded on {device}")

損失関数（Contrastive Loss）の理解

通常、PyTorchで画像分類モデルを構築する際は nn.CrossEntropyLoss などを明示的に定義しますが、Hugging Faceの CLIPModel は、forwardパスの内部で自動的に対照損失（Contrastive Loss）を計算する仕組みを備えています。

具体的には、バッチ内に入力された画像埋め込みベクトルと、対応する医療レポートなどのテキスト埋め込みベクトルの内積を計算します。そして、正しい組み合わせ（正例ペア）の類似度スコアが最大になり、無関係な組み合わせ（負例ペア）のスコアが最小になるように学習が進みます。

実装上は、データをモデルに流し込み、返ってきた loss をそのまま backward するだけで最適化が可能です。コードは非常に簡潔になりますが、内部でどのような類似度計算と対照学習が行われているかを正確に把握しておくことは、学習がうまく収束しない場合のデバッグや、医療特有の複雑な所見に対するモデルの振る舞いを評価する上で極めて重要だと言えます。

4. ファインチューニングの学習ループ実装

4. ファインチューニングの学習ループ実装 - Section Image

モデルとデータの準備が整えば、次は学習ループの実装です。医療用GPUサーバーを利用する環境であっても、X線やMRI、病理スライドなどの医療画像は一般的なデータセットに比べて極めて高解像度であり、GPUメモリを激しく消費します。

細胞内の微小なオルガネラやタンパク質のドメイン構造を解析する際と同様に、医療AIやバイオ領域における機械学習モデル構築では、微細な構造を保持したまま学習させる必要があるため、単純に画像をリサイズしてバッチサイズを稼ぐアプローチは推奨されません。そのため、一般的な学習ループに加えて、自動混合精度（AMP: Automatic Mixed Precision）を活用したメモリ効率化と、勾配爆発を防ぐクリッピング処理を組み込むことが実務上のスタンダードです。近年では、ChatGPTのようなコーディング支援AIを活用して、こうした最適化を含むベースコードを効率的に生成し、医療特有のチューニングに注力する開発スタイルも定着しています。

以下のコードは、メモリ管理と学習の安定化に配慮した実践的な学習ループの例です。

import torch
from torch.optim import AdamW
from torch.utils.data import DataLoader
import torch.cuda.amp as amp # 自動混合精度（AMP）の導入

# ハイパーパラメータの設定
BATCH_SIZE = 16 # GPUメモリの上限に合わせて慎重に調整
LEARNING_RATE = 5e-5
EPOCHS = 3

# DataLoaderの準備
dataset = MedicalImageTextDataset(dummy_data, processor)
dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)

# オプティマイザとAMP用Scalerの初期化
optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)
scaler = amp.GradScaler() # メモリ効率と計算速度を向上させるScaler

# 学習ループ
print("Start Training...")
for epoch in range(EPOCHS):
    total_loss = 0
    for batch in dataloader:
        # データをデバイス（GPU）へ転送
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        pixel_values = batch['pixel_values'].to(device)

        # Forward pass: 自動混合精度コンテキストを適用
        with amp.autocast():
            outputs = model(
                input_ids=input_ids, 
                attention_mask=attention_mask, 
                pixel_values=pixel_values,
                return_loss=True # Lossをモデル内部で計算させる
            )
            loss = outputs.loss
        
        # Backward pass: Scalerを使用して勾配を計算
        optimizer.zero_grad()
        scaler.scale(loss).backward()
        
        # 勾配爆発を防ぐためのクリッピング（安定学習の要）
        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        
        # パラメータの更新
        scaler.step(optimizer)
        scaler.update()
        
        total_loss += loss.item()
    
    avg_loss = total_loss / len(dataloader)
    print(f"Epoch {epoch+1}/{EPOCHS} | Average Loss: {avg_loss:.4f}")

print("Training Finished!")

このコードを実行すると、エポックを重ねるごとにLoss（損失値）が低下し、モデルが画像とテキストの対応関係を学習していく過程をモニタリングできます。

実際の医療データセットを用いたファインチューニングでは、学習完了までに数時間から数日を要するケースも珍しくありません。長時間の学習では過学習（オーバーフィッティング）のリスクが高まるため、検証用データセットでのLossを定期的に確認し、改善が見られなくなった時点で学習を打ち切る「Early Stopping」の仕組みを導入することが、汎化性能の高いモデルを構築するコツです。

5. 推論テスト：画像検索とZero-shot分類

学習が完了した段階で、モデルが医療分野の専門用語を正確に理解できているか検証します。
CLIPの最大の強みは、学習時に一度も見たことがないクラス（ラベル）であっても、テキストとして条件を与えるだけで分類できるZero-shot能力にあります。これは、既知の遺伝子変異パターンから、未知のバリアントの病原性を推論するアプローチにも通じる強力な特性です。

ここでは、「肺炎（Pneumonia）」と「正常（Normal）」を識別できるかテストする推論コードを実装します。

# 評価モードへ
model.eval()

# テスト用のテキストラベル（プロンプトエンジニアリングが重要）
candidate_labels = ["a photo of a normal chest x-ray", "a photo of a chest x-ray with pneumonia"]

# テスト画像（ダミー）
test_image = Image.fromarray(np.uint8(np.random.rand(224, 224, 3) * 255))

# 推論実行
with torch.no_grad():
    inputs = processor(
        text=candidate_labels, 
        images=test_image, 
        return_tensors="pt", 
        padding=True
    ).to(device)
    
    outputs = model(**inputs)
    
    # 画像とテキストの類似度スコア（logits_per_image）を取得
    logits_per_image = outputs.logits_per_image 
    probs = logits_per_image.softmax(dim=1) # 確率に変換

# 結果表示
print("Prediction Results:")
for label, prob in zip(candidate_labels, probs[0]):
    print(f"{label}: {prob.item()*100:.2f}%")

ファインチューニングが適切に機能していれば、肺炎の画像を入力した際に ...with pneumonia の確率が高く算出されます。

ここで重要になるのが、テスト用のテキストラベル（candidate_labels）の設計です。テキストクエリの質がZero-shot分類の精度を直接的に左右するため、高度なプロンプトエンジニアリングが求められます。
近年、OpenAIのモデル群は大きな進化を遂げており、GPT-4等のレガシーモデルが廃止され、より高度な推論能力とマルチモーダル処理を備えたGPT-5.2が新たな標準モデルとして展開されています。こうした最新のLLM（大規模言語モデル）のAPIを活用し、医療画像の特性に合わせた最適なテキストプロンプトを自動生成・最適化するアプローチも、推論精度を向上させる有効な手段として現場で採用されています。

まとめ：実装の先にある「現場での活用」へ

学習ループ - Section Image 3

今回は、PyTorchとHugging Faceを活用し、医療画像とテキストを紐づけるCLIPモデルのファインチューニング手法を実装しました。

ここまでのステップを実践することで、以下の技術基盤を構築できます。

ラベルなしデータを活用した効率的な学習パイプライン
医療用語のコンテキストを理解するマルチモーダルモデル
Zero-shot分類による、未知の症例や多様なクエリへの柔軟な対応

一方で、実際の医療現場へ導入する際には、まだ越えるべき壁が存在します。「日本語で記述された複雑な電子カルテテキストをどう処理するか」「3次元のCT画像（DICOM）へどう拡張するか」「期待する精度が出ない時のトラブルシューティング手法」など、現場特有の課題は多岐にわたります。

生命科学のデータが常にノイズと多様性に満ちているように、臨床現場のデータもまた一筋縄ではいきません。こうした課題を解決し、実データを使った際の泥臭い前処理ノウハウや、精度をさらに引き上げるためのハイパーパラメータ調整術など、コードだけでは伝わりにくい「現場の勘所」を掴むことが、AI導入支援や業務自動化を成功に導く鍵となります。

体系的な知識と実践的なアプローチを身につけることで、実務での導入リスクを軽減し、医療現場におけるAIの価値を最大化することが可能になります。画像とテキストの融合は、マルチオミクス解析が生物学にもたらしたようなパラダイムシフトを医療AIにもたらしつつあります。単なる業務自動化にとどまらず、医師の診断を高度に支援するAIを構築するために、本記事の実装がその第一歩となれば幸いです。

脱・画像分類｜医療マルチモーダルAI「CLIP」をPyTorchで実装し、レポート読解力を授ける - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...