創薬研究者やR&Dマネージャーの皆様。新薬開発における課題と、それを克服するための希望について考えてみましょう。
新薬開発はしばしば「10億ドルのギャンブル」と評されます。一つの薬を世に出すまでに長い年月と莫大なコストがかかり、臨床試験での成功率は決して高くありません。
「苦労して合成した化合物が、臨床フェーズで毒性を示し開発中止になる...」
このような事態は、経営的にも現場のモチベーション的にも最も避けたいシナリオです。この課題を打破する強力なアプローチの一つが、AIによるADMET(吸収、分布、代謝、排泄、毒性)予測です。
しかし、いざAIを導入しようとすると、「どのモデルが良いのか」「AIの予測をどこまで信じて良いのか」といった疑問に直面するのではないでしょうか。データサイエンスの専門家でなくても、自社の状況に最適なAIを選び、使いこなすにはどうすれば良いのか。
今回は、難しい数式は抜きにして、ビジネスと開発現場の最短距離を描く「現場で使えるAI毒性予測」の実装について、実践的な視点から解説していきます。
なぜ初期段階での「AI毒性予測」が開発成否を分けるのか
探索研究(Discovery)の段階でAIによる毒性予測に力を入れるべき理由を、コストと時間の観点から紐解いていきましょう。
臨床開発コストの増大と「毒性」による開発中止
創薬の失敗理由を分析したデータによると、有効性不足と並んで、安全性(Safety/Toxicity)の問題が一定の割合を占めています。特に、動物実験(非臨床試験)や臨床試験の後半で毒性が発覚するケースは、プロジェクトにとって致命的な痛手となります。
開発の後期になるほど、投下した資本と時間は膨大になります。そのため、できる限り早い段階で問題点を見つけることが経営的にも極めて重要です。
ここで鍵となるのが「Fail Early(早期に失敗する)」というアジャイルな思考です。
将来的に開発が困難になる可能性のある化合物であれば、できるだけ早い段階、できれば合成する前の段階で見切りをつける。そうすることで、限られたリソースを有望な化合物に集中させ、全体の成功率を劇的に高めることができます。
従来のin vitro/in vivo試験とAI予測の役割分担
AIによる予測精度には限界があるため、最終的には実験が必要です。AIはあくまで「実験の優先順位付け(Prioritization)」のための高速なプロトタイピングツールとして活用します。
従来のアプローチでは、合成したすべての化合物に対して網羅的にhERG阻害試験やAmes試験を行うのは、コストや時間の制約から困難でした。そのため、ある程度開発が進んだ段階で初めて毒性試験を行い、予期せぬ結果に直面することがありました。
AIを導入すれば、数千、数万の仮想化合物ライブラリに対して瞬時に毒性リスクをスコアリングできます。
- ハイリスク群: 合成候補から除外、または構造展開でリスク回避を検討
- ローリスク群: 優先的に合成し、Wet実験へ回す
このフィルタリングを挟むだけで、実験リソースを「成功確率の高い化合物」に集中させることが可能になります。
AI導入で期待できるROIと時間短縮効果
AIによるADMET予測を導入することで、リード化合物最適化のサイクルを大幅に短縮できる可能性があります。
これは単に計算が速いからだけではありません。AIが「この構造は代謝安定性が低い可能性がある」と予測することで、研究者が無駄な合成ルートを回避できるからです。実験回数が減れば、試薬代や外部委託費も削減できます。初期投資は必要となるものの、プロジェクト全体で見ればROI(投資対効果)は非常に高いと考えられます。
事前準備:自社に最適な予測モデルを選ぶための3つの評価軸
AIツールの導入を検討する際、すぐにベンダー選定や具体的なシステム構築に入るのではなく、「自社のプロジェクトにおいて何を最優先で求めているか」という要件定義を徹底する必要があります。目的が曖昧なままAIを導入しても、期待する投資対効果や開発期間の短縮は得られません。
ここでは、自社に最適な予測モデルを選定する上で軸となる3つの評価基準を提示します。
予測したいエンドポイントの明確化(hERG阻害、肝毒性、AMES等)
対象となる「毒性」のスコープは多岐にわたります。
- 心毒性(hERGチャネル阻害など)
- 薬物性肝障害(DILI)
- 変異原性(Ames試験)
- 急性毒性(LD50)
現在の技術水準において、これら全ての毒性エンドポイントを単一のモデルで高精度に予測できる万能なAIは存在しません。対象とする疾患領域やモダリティによって、許容される毒性リスクの閾値は大きく変動します。例えば、長期間の服用を前提とする生活習慣病治療薬であれば慢性毒性の回避が最優先課題となりますが、一方でオンコロジー(がん領域)の開発であれば、リスクとベネフィットのバランスから許容される毒性の範囲は全く異なります。
したがって、まずはプロジェクトにおいて「どの毒性リスクを最優先で排除すべきか」というターゲットを明確に定義することが求められます。このエンドポイントの絞り込みが、後続のデータセット構築やアルゴリズム選定の方向性を決定づける重要な指針となります。
解釈可能性(Explainability)の重要性
AIモデルが単に「この化合物は毒性リスクが高い」という二値判定を出力するだけでは、メディシナルケミストは具体的な次のアクションを立案できません。予測結果に対して「なぜその結論に至ったのか」という論理的な裏付けが不可欠です。分子内の「どの部分構造(ファーマコフォア)が毒性発現に寄与しているのか」を特定できて初めて、合理的な構造最適化(ドラッグデザイン)への落とし込みが可能になります。
この課題を解決するアプローチが「説明可能なAI(Explainable AI: XAI)」です。導入するモデルを評価する際は、表面的な予測精度(AccuracyやAUC)の数値だけでなく、予測根拠の可視化能力を厳しく検証する必要があります。AIが提示する根拠が、既存の構造活性相関(SAR)の知見と整合し、化学的な解釈として妥当性を持つかどうかが、実際の創薬現場で活用できるかどうかの分水嶺となります。
利用可能なデータ量と質の確認
機械学習モデルの予測性能は、学習データ(グラウンドトゥルース)の質と量に直接的に依存します。モデル構築に利用できるデータソースは、大きく以下の2つに大別されます。
- Publicデータ(公開データ): ChEMBLやPubChemなどに代表される公共データベース。圧倒的なデータ量を誇る反面、複数の施設や異なるアッセイ系から収集されたデータが混在しているため、測定条件のばらつきによるノイズが含まれるという課題があります。
- Privateデータ(社内データ): 自社のアッセイ系で蓄積してきた独自データ。絶対的なデータ量は限られるケースが多いものの、実験条件が均一化されており、かつ自社の注目するケミカルスペースに特化した質の高い情報源となります。
自社内にクリーンなPrivateデータが十分に蓄積されているのか、あるいはPublicデータを主体としてモデルを構築し、転移学習などで補正をかけるアプローチをとるのかによって、適切なデータ戦略は異なります。まずは手元にあるデータ資産の棚卸しと質の評価を行うことが、最適なモデル構築プロセスを設計するための第一歩です。
ステップ1:手法の選定 - 古典的QSARから最新の深層学習まで
要件が明確になったら、次は具体的な手法(アルゴリズム)の選定に入ります。ここでは、代表的なアプローチを3つの世代に分けて、それぞれの特徴と判断基準を整理します。
物理化学的パラメータベースの手法
これは最も古典的なアプローチとして知られています。LogP(脂溶性)、分子量、極性表面積(TPSA)といった物理化学的記述子を用い、経験則や比較的単純な回帰分析によって予測を行います。
- メリット: 計算が非常に高速であり、結果の解釈が直感的に行いやすい点です。
- デメリット: 複雑な毒性メカニズムや、非線形な相互作用を予測することには適していません。
初期のざっくりとしたスクリーニングには十分利用できますが、現代の高度な創薬プロセスをこれだけで乗り切るのは困難と言えます。
機械学習(ランダムフォレスト、SVM)の特徴と適用範囲
2000年代以降、業界の主流となったのが機械学習(Machine Learning)によるアプローチです。化合物をフィンガープリント(ECFP4など)と呼ばれる数値ベクトルに変換し、ランダムフォレストやサポートベクターマシン(SVM)などのアルゴリズムで学習させます。
- メリット: 数百から数千程度のデータ量があれば、安定した予測精度が期待できます。また、過学習を起こしにくいという実用上の強みもあります。
- デメリット: フィンガープリントへ変換する過程で、化合物の3次元的な構造情報の一部がどうしても失われてしまいます。
計算コストと精度のバランスが良いため、現在でも多くの現場で主力として利用されている手法です。
深層学習(GNN、Transformer)のメリット・デメリット
近年、創薬の現場で急速に普及しているのがディープラーニングを活用したアプローチです。特にグラフニューラルネットワーク(GNN)は、化合物を「原子(ノード)」と「結合(エッジ)」のグラフ構造として直接読み込むため、化学構造のトポロジーを詳細に学習できます。
また、自然言語処理で革命を起こしたTransformerも、化合物のSMILES記法(文字列表記)を言語のように扱って学習する手法として広く活用されています。
- メリット: GNNは複雑な非線形関係のモデル化に優れ、より高い精度が期待できます。一方のTransformerは、大規模な事前学習モデル(Pre-trained Model)を活用しやすく、データが少ない領域でも転移学習によって高い予測性能を引き出せる強みがあります。
- デメリット: どちらも大量のデータと高い計算コストを要求します。内部構造がブラックボックス化しやすいという課題がありますが、Attention機構の可視化などにより解釈性は向上しつつあります。
【重要:Transformer実装における最新の注意点】
実装基盤として広く使われるHugging Face Transformersは、最新のアーキテクチャ刷新に伴い大きな変更が行われました。
これまでサポートされていたTensorFlowおよびFlaxのサポートが終了(廃止)となり、現在はPyTorchを中心としたエコシステムに最適化されています。
これから新たに予測モデルの環境を構築する場合や、既存のTensorFlowベースのモデルを運用している場合は、PyTorchへの移行計画を立てることが不可欠です。同時に、内部設計がモジュール型アーキテクチャへと刷新されたことで、AttentionやMLPなどのコンポーネントの差し替えが容易になり、メモリ効率や推論速度の向上が期待できます。最新の移行手順については、公式ドキュメントが提供する移行ガイドを参照してください。
数万件規模の社内データがある場合や、公開データを使った事前学習モデルを効果的に活用できる基盤が整っているなら、GNNやTransformerは極めて強力な選択肢となります。
ステップ2:モデル構築とバリデーションの注意点
高度なアルゴリズムを用いて高い精度のモデルが構築できたとしても、それをそのまま実運用に乗せるのは危険です。予測モデルを開発・評価する上で、いくつか押さえておくべき重要なポイントがあります。
Applicability Domain(適用領域)の設定
AIは、学習データから大きく外れた未知の化合物を正確に予測することは困難です。学習データに含まれる化合物の類似範囲をApplicability Domain(AD:適用領域)と呼びます。
ADの外側にある、全く新しい骨格の化合物に対して予測を行っても、その結果は信頼性が低いと判断せざるを得ません。モデルを実際の業務で運用する際は、単なる予測値だけでなく「この予測は信頼できる範囲内か?」を示す指標(信頼度スコア)を合わせて提示する仕組みが不可欠です。
過学習を防ぐためのデータ分割戦略
モデルの評価において、データ分割は極めて重要なプロセスです。通常、データを「学習用」と「テスト用」に分ける際、ランダムに分割することが一般的です。
しかし、創薬データで単純なランダム分割を行うと、過学習(オーバーフィッティング)を見落とす危険性があります。似たような構造の化合物が学習用とテスト用の両方に混ざってしまい、テスト時の精度が実際の実力よりも高く算出されてしまうのです。
これを防ぐために、Scaffold split(骨格分割)やTime split(時間分割)を採用します。骨格が異なる化合物を意図的にテスト用に回すことで、「未知の骨格に対する真の予測能力」を厳密に評価できます。
外部検証セットによる実力値の評価
モデル構築後、過去のデータセット内でのテストだけでなく、「これから合成する予定の化合物」あるいは「最近実験したばかりの最新データ」を使って検証することが極めて重要です。これがモデルの実証的な実力評価となります。
この外部検証で十分な精度が得られて初めて、現場の研究者に信頼して使ってもらえる実用的なモデルとなります。まずは動くプロトタイプで検証を重ねることが成功への近道です。
ステップ3:研究者のワークフローへの統合と運用
どれほど優れたAIモデルを開発しても、実際に研究者の業務で使われなければ価値は生み出せません。日常的なワークフローにどのように自然に組み込むかが、プロジェクト成功の鍵を握ります。
合成前のバーチャルスクリーニングとしての活用
理想的な運用形態は、化学者が日常的に使用している化合物の設計ツール(ChemDrawなど)に、AIの予測機能がシームレスに統合されている状態です。
構造式を描画・編集した瞬間に、画面上で「hERG阻害リスク:高」「代謝安定性:中」といったアラートがリアルタイムで表示されれば、別の解析ソフトウェアを立ち上げる手間を省き、スムーズに設計の軌道修正が可能になります。
実験結果のフィードバックループ(Active Learning)
AIモデルは「導入して終わり」ではありません。運用開始後も継続的に改善する仕組みが必要です。これをActive Learning(能動学習)と呼びます。
- AIが対象化合物を予測する
- 予測の確信度が低いものや、予測値と実際の実験結果が大きく乖離したものを重点的にピックアップして実験する
- 得られた最新の実験結果を正解データとして、AIに追加学習(ファインチューニング)させる
このサイクルを継続的に回すことで、モデルは特定のプロジェクトや独自の化合物に関する知識を蓄積し、より現場に即した精度の高いものへと適応していきます。予測が外れたデータこそが、モデルを賢くするための最も貴重な情報源となります。
化学者とデータサイエンティストの協業体制
データサイエンティストはモデルの精度を統計的な数値で評価する傾向がありますが、化学者は自身のドメイン知識や長年の経験に基づいて化合物を評価します。
この両者の間にある視点のギャップを埋めるためには、定期的な情報交換と議論が不可欠です。AIがなぜその予測を出したのかを可視化ツール(XAI)を用いて説明し、化学者の専門的な知見を取り入れて特徴量やモデルを改善していく。この密な協業プロセスを通じて、組織全体のデータ活用レベルが底上げされます。
導入失敗を防ぐためのチェックリスト
AI毒性予測プロジェクトを確実に成功へと導くための実践的なチェックリストを提示します。
- データのサイロ化対策: 部署やプロジェクトごとに分散・管理されている実験データを、機械学習に使える形で統合・クレンジングできているか。
- 過度な期待値の抑制: AIに対する「何でも100%当てられる」という過度な期待を持たせないよう、関係者への啓蒙を徹底する。まずは「実験前のスクリーニング補助ツール」として位置づける。
- スモールスタートの徹底: いきなり全社規模で導入するのではなく、特定のターゲットやプロジェクトでPoC(概念実証)を行い、小さな成功事例を確立してから横展開する。
- ベンダー製ツール vs 自社開発の見極め: 汎用的な毒性予測には実績のあるベンダー製ツールを採用し、自社独自のターゲットや特殊な化合物群には自社開発(または共同開発)のモデルを適用するなど、適材適所の判断を行う。
まとめ:AIを「頼れる相棒」にするために
創薬初期におけるAIによる毒性予測の手法選定から、モデル構築、そして現場への実装・運用までのロードマップを解説しました。
AIを「研究者の代わり」として捉えるのではなく、「研究者の意思決定を強力に支援する相棒」としてワークフローに組み込む視点が重要です。AIの予測能力を活用して致命的なリスクを早期に排除し、研究者がより創造的で革新的な新薬の設計に注力できる環境を構築することこそが、AI導入の真の目的だと言えます。
コメント