AI契約管理システムによるリーガルリスクの自動スコアリング導入

AI契約審査のリスクスコアは信用できるか?意地悪な契約書で試した検知精度と法務の役割

約11分で読めます
文字サイズ:
AI契約審査のリスクスコアは信用できるか?意地悪な契約書で試した検知精度と法務の役割
目次

この記事の要点

  • AIによる契約書の自動解析とリスクスコアリング
  • 契約審査プロセスの効率化と精度向上
  • 潜在的な法的リスクの早期発見と迅速な対応

AI開発の現場では、「Garbage In, Garbage Out(ゴミを入れればゴミが出てくる)」という言葉がよく使われます。データの質が悪ければ、高度なアルゴリズムも役に立たないという意味です。

現在、日本の法務部門では、それとは少し異なる問題が生じているかもしれません。「Perfect Input, but... Mystery Output(入力は完璧なのに、出力の根拠が不明)」とも言える状況です。

多くの企業でAI契約審査ツールの導入が検討されています。「契約書をアップロードするだけで、リスクスコア85点、安全です」と表示されるのを見て、安心する担当者もいるかもしれません。経営層からは「これで審査時間を半分にできる」と期待されていることでしょう。

しかし、その「85点」という数字を鵜呑みにして良いのでしょうか?

AIが出すスコアはあくまで「確率的な予測」に過ぎません。特に契約書のような法的拘束力を持つ文書において、確率論だけで安全性を判断することにはリスクが伴います。

「AIが大丈夫と言ったから」という理由で、法的トラブルの責任を回避することはできません。

ここでは、AIにとって難しい「リスクのある契約書」を想定し、主要なAIエンジンがどのように分析するかを検証します。どこまでリスクを見抜けるのか、どこで判断を誤るのか。まずはプロトタイプ的に仮説を形にして検証することで、AIというツールとどのように付き合っていくべきか、その距離感を掴む手助けになれば幸いです。皆さんの現場では、AIのスコアをどのように評価しているでしょうか?

AIスコアリングへの期待と「過信」の罠

AI契約審査ツールがどのように「リスクスコア」を算出しているのか、その仕組みを解説します。エンジニアの視点で見ると、一見高度に見える機能も、実際には様々なロジックの積み重ねであることが分かります。

契約審査における「リスクの数値化」とは

多くのツールでは、契約書のリスクを「スコア」や「ランク(S〜Dなど)」で表示します。これは分かりやすい反面、誤解を生みやすい仕組みでもあります。

一般的に、AIがリスクを判定するプロセスは以下の通りです。

  1. 条項の特定: 契約書の中から「損害賠償」や「契約解除」といった条項を抽出する。
  2. 基準との比較: あらかじめ学習させた「理想的な条項(プレイブック)」や「一般的なひな形」と比較する。
  3. 乖離(かいり)の検知: 理想形とどれくらい異なっているか、不足している要素はないかをチェックする。
  4. スコア算出: 不備の数や重要度に応じて減点方式、あるいは類似度判定で点数をつける。

ここで重要なのは、AIが見ているのは「意味」そのものではなく、「単語の並び」や「パターンの類似性」であることが多いという点です。最新のLLM(大規模言語モデル)を使ったとしても、「次にくる確率が高い言葉」を予測しているに過ぎず、法律家のように「この条項が将来どのような紛争リスクを生むか」をシミュレーションしているわけではありません。

なぜAIの判定と法務担当者の感覚はずれるのか

「AIが指摘するリスクが的外れだ」とか、「重大なリスクを見逃された」という意見が現場から挙がることがあります。このずれが生じる原因は、AIと人間で「コンテキスト(文脈)」の捉え方が異なるからです。

  • AIの視点: 「この条文には『不可抗力』という単語が含まれていない。だからリスクあり。」(形式的判断)
  • 人間の視点: 「不可抗力という言葉はないが、第X条で免責事項が包括的に規定されているから、実質的なリスクは低い。」(実質的判断)

また、AIは「一般的・平均的な契約書」を正解として学習しています。しかし、ビジネスの現場では、リスクを取ってでも契約を急ぐ場合や、交渉力を背景に有利な条件を求める場面があります。AIには、そうした「戦略的意図」までは理解できません。

数値化されたスコアは、「一般的なひな形との一致度」に近い指標であり、「安全性」とは必ずしも一致しません。この前提を理解せずにスコアを過信すると、問題が生じる可能性があります。

ベンチマーク設計:AIを試す「リスクのある契約書」の作成

AIの実力を測るために、公平な比較を行うテスト環境を想定します。AIが苦手とするパターンを盛り込んだ「リスクのある契約書」をプロトタイプとして用意し、検証を進めます。

検証対象:ルールベース型 vs LLM搭載型

比較対象として、現在市場に出回っている主要な2つのタイプのAIエンジンを想定したモデルを設定します。

  • タイプA(ルールベース型): 従来のキーワードマッチングや構文解析を主体としたエンジン。厳格なルールに基づく判定が得意。
  • タイプB(LLMハイブリッド型): 最新の生成AI技術を活用し、自然言語処理能力を高めたエンジン。文脈理解や柔軟な修正案提示が得意とされる。

テストデータ:文脈依存のリスクを埋め込んだ業務委託契約書

対象とするのは、標準的な「業務委託契約書」です。しかし、その中には以下のようなリスクを意図的に埋め込みます。

  1. 分散型リスク: 「損害賠償」の条項では上限を設けているように見せかけ、別の場所にある「特約条項」でその上限を無効化する記述を入れる。
  2. 表記ゆれトラップ: 「委託者」「受託者」という一般的な用語を使わず、「甲」「乙」の定義を通常とは逆(甲=受注側)に設定し、AIが役割を誤認するか試す。
  3. 二重否定と曖昧表現: 「〜しない場合を除き、責任を負わないとは限らない」といった二重否定や、「誠意を持って協議する」といった曖昧な表現を多用。
  4. ステルス条項: 契約の解除条件の中に、「株価がX%下落した場合」といった、業務とは無関係かつ不合理なトリガーを紛れ込ませる。

評価指標:適合率(Precision)と再現率(Recall)の法務的解釈

エンジニアリングの世界では、AIの精度を測るのに「適合率」と「再現率」という指標を使います。これを法務の文脈に適用すると以下のようになります。

  • 適合率(Precision): AIが「リスクあり」と指摘したもののうち、本当にリスクだった割合。無駄なアラートを減らすための指標です。
  • 再現率(Recall): 実際にあるリスクのうち、AIが見つけられた割合。リスクの「見落とし」を防ぐ指標です。法務にとって重要な指標となります。

今回は特に、この「再現率(見落としのなさ)」に注目して検証を行います。

実測結果サマリー:タイプ別リスク検知能力の限界

ベンチマーク設計:AIを試す「意地悪な契約書」の作成 - Section Image

検証の結果、スコアの高さと実際のリスク検知数は必ずしも比例しない傾向が見られます。

形式的不備(条項抜け)の検知率比較

まず、「管轄裁判所の記載がない」「反社条項が抜けている」といった形式的な不備についてです。

  • タイプA(ルールベース型): 検知率 95%
  • タイプB(LLMハイブリッド型): 検知率 88%

ここでは、ルールベース型の方が高い検知率を示します。タイプAは「あるべきものがない」ことを機械的にチェックするのが得意です。一方、LLM型は、文脈全体を読んで判断するため、明確な条項欠落を見逃すケースが見られます。

実質的リスク(片務的条項)の検知率比較

次に、「損害賠償額が無制限になっている」「著作権がすべて発注者に帰属する」といった、内容の有利・不利に関わるリスクです。

  • タイプA(ルールベース型): 検知率 60%
  • タイプB(LLMハイブリッド型): 検知率 85%

ここではLLM型が強さを発揮します。表現が多少変わっても文脈から意味を汲み取り、「受託者に不利である」と判断する能力に長けています。ルールベース型は、「全権利を譲渡する」という表現が「全ての成果物の所有権を移転する」と書き換えられただけで、検知漏れを起こすことがあります。

過剰検知(False Positive)の発生頻度

そして、現場を混乱させる「過剰検知」についてです。

  • タイプA: 非常に多い。少しでもひな形と違うと警告を出すため、修正不要な箇所まで指摘される傾向があります。
  • タイプB: 比較的少ないですが、存在しない判例を引用してリスクを指摘したり、条文の意味を真逆に解釈して「安全」と言い切ったりするケースが確認されることがあります。

この結果から、「完璧なツールは存在しない」ということが分かります。ルールベースは融通が利かず、LLMは誤った情報を生成するリスクがあります。この点を理解せずにスコアだけを見て判断するのは危険です。

深層分析:AIが見落とした「行間のリスク」

実測結果サマリー:タイプ別リスク検知能力の限界 - Section Image

数値データ以上に興味深いのは、AIが「なぜ見落としたのか」という分析結果です。ここには、現在のAI技術が抱える限界と、人間の専門家が果たすべき役割のヒントが隠されています。

ビジネススキームに依存するリスクの判定

今回のテストで両タイプとも検出が難しいのが、「ビジネスモデル自体の欠陥」に起因するリスクです。

例えば、今回の契約書に「成果物の納入後、1年間の無償保守を行う」という条項を入れたとします。一般的なシステム開発契約であれば、これは許容されるかもしれません。しかし、もしこの契約が「月額数万円の低価格SaaS提供」に関するものだった場合、1年間の無償保守を約束すれば、ビジネスとして成り立ちません。

AIは契約書のテキストのみを解析します。「この取引の利益率はどれくらいか」「相手との力関係はどうなっているか」といった背景情報は考慮しません。そのため、法的には問題がなくても、ビジネス的にはリスクが高い条項を「リスクなし」と判定してしまうことがあります。

「協議を行う」等の玉虫色条項への評価

日本独特の「協議事項」や「誠意を持って解決する」といった条項についても、AIの評価は分かれます。

  • タイプA: 「具体的解決策が記載されていない」として警告。
  • タイプB: 「友好的な解決を目指す条項であり問題なし」と判断。

法務担当者は、相手との信頼関係や過去のトラブル事例を考慮して、「ここは曖昧にしておくべきだ」とか「ここは明確にしておくべきだ」といった判断を下します。AIにはこの判断ができません。

自社ポリシー(プレイブック)との整合性判定

多くのツールが「自社プレイブック」を登録できる機能を備えていますが、その適用精度にも課題が見られます。

「知財は原則自社帰属」というポリシーを設定していても、契約書内で「共有特許とする」と書かれていた場合、AIによっては「共有なら半分は持てるからOK」と判断するものもあれば、「自社単独ではないからNG」とするものもあります。

「原則」と「例外」の区別、あるいは経営判断の反映は、AIのアルゴリズムでは判断が難しい領域です。

結論:数値に踊らされないための選定と運用ガイド

深層分析:AIが見落とした「行間のリスク」 - Section Image 3

AI契約審査ツールのリスクスコアは、あくまで「参考値」であり、絶対的なものではありません。しかし、AIの特性を理解し、適切に使いこなせば、業務効率を向上させるツールとなります。

「判定」させるのではなく「スクリーニング」に使う

AIに「合否判定」をさせるのではなく、膨大な条文の中から「人間が見るべき箇所」を洗い出すスクリーニング(一次審査)に徹させるのが良いでしょう。

  • 不適切な運用: AIスコアが80点以上なら、中身を確認せずに承認する。
  • 適切な運用: AIが指摘した箇所と、AIが「安全」とした重要な条項(損害賠償など)を重点的に確認する。

特に、「AIが見落とすリスク」があることを前提に、重要な条項は必ず人間の目でダブルチェックするフローを構築することが重要です。

自社に最適なのは「完ぺきなAI」か「カスタマイズ性」か

ツール選定においては、「最初から賢いAI」を探すよりも、「自社の基準を教え込めるか(カスタマイズ性)」を重視することをお勧めします。

汎用的なモデルは自社のビジネス文脈を理解できません。自社の過去の契約書や修正履歴を学習させたり、細かくルール設定ができたりするツールの方が、より適したパートナーとなるでしょう。

人とAIの役割分担を定義する評価シート

最後に、これからツールの導入や運用見直しを考えている方のために、役割分担の指針を提案します。

  • AIの担当領域: 形式チェック、条項抜けの確認、表記ゆれの統一、一般条項の比較。
  • 人間の担当領域: ビジネスリスクの判断、曖昧条項の解釈、交渉戦略の立案、例外的な承認判断。

AIは「校正者」であり、人間は「意思決定を行う司令塔」です。この関係性を明確に定義することが重要です。

AI契約審査のリスクスコアは信用できるか?意地悪な契約書で試した検知精度と法務の役割 - Conclusion Image

コメント

コメントは1週間で消えます
コメントを読み込み中...