はじめに
「せっかくチャットボットを導入したのに、結局電話がかかってくるんです」
地方自治体のDX推進の現場では、このような課題を耳にすることが少なくありません。画面の右下に愛らしいキャラクターのアイコンを設置し、24時間365日対応を謳っているにもかかわらず、住民は受話器を取ってしまう。実際のログの傾向として、ボットは「申し訳ありません、よくわかりませんでした」や「関連するリンクはこちらです」といった機械的な返答を繰り返しているケースが多く見られます。
不動産テックエンジニアの視点から見ると、VR内見や間取り図のAI生成、画像認識といった技術開発の現場でも、ユーザーの「なんとなくこんな部屋がいい」という曖昧な要望を、いかに技術で汲み取るかが最大の課題となります。実はこれ、自治体の窓口業務におけるチャットボットの課題と全く同じ構造です。
住民は「転出届」という正確な行政用語を知りません。「引っ越すんだけど」という話し言葉から、必要な手続きを導き出す必要があります。ここで重要になるのが、AIモデルの「日本語理解力」と「文脈を読む力」です。
今回は、汎用的な大規模言語モデル(LLM)と、日本語や行政用語に特化した国産モデルを比較検証した結果を解説します。スペック上の数値ではなく、「住民の困りごとを解決できるか」という一点に絞った実証結果を共有します。これからAI導入を検討される方、あるいはリプレイスを考えている方にとって、判断の物差しとなれば幸いです。
なぜ、そのチャットボットは住民に「使えない」と言われるのか
まず、既存のチャットボットが抱える根本的な課題から整理しましょう。多くの自治体で導入されているシナリオ型(ルールベース型)や、初期の汎用AIチャットボットが住民に敬遠される理由は、UIの使いにくさよりも「対話の質の低さ」にあります。
「見つかりません」を繰り返すボットの弊害
住民がチャットボットを利用する際、最もストレスを感じるのは「たらい回し」です。例えば、「保育園に入りたい」と入力した際、「保育園入園案内」のPDFリンクだけを投げ返されたらどう感じるでしょうか。住民は膨大な資料の中から自分に必要な情報を探さなければなりません。
これなら電話で職員に聞いた方が早い、となるのは当然です。従来のシステムは、キーワードマッチングに依存しているため、ユーザーの意図(インテント)を解釈する工程が抜け落ちていました。「見つかりません」「別の言葉で言い換えてください」という返答は、住民にとって「拒絶」と同じ意味を持ちます。
行政特有の「曖昧な問い合わせ」の壁
行政手続きには、似て非なる用語が山ほどあります。「転出」と「転居」の違いはその代表例です。
- 転出: 市外へ引っ越すこと
- 転居: 市内で住所を変えること
住民が「引っ越しの手続き」と入力した際、AIがこの文脈の違いを確認せずに「転居届はこちら」と案内してしまえば、誤った手続きを誘導することになります。汎用的な翻訳ベースのAIモデルでは、こうした日本の行政区画や制度に基づく微妙なニュアンスの使い分けが苦手なケースが散見されます。
汎用モデルが苦手とする日本の行政用語
海外製の超大規模モデルは、世界中の知識を持っていますが、「日本の地方自治体の条例」や「日本独特の申請主義」に関する学習データは相対的に希薄です。
例えば「あしなが育英会」と「就学援助制度」の違いや、「特別徴収」と「普通徴収」の切り替えタイミングなど、背景知識がないと回答できない質問に対し、汎用モデルはもっともらしい嘘(ハルシネーション)をつくリスクがあります。ここで求められるのは、世界レベルの広範な知識ではなく、ローカルで深堀りされた正確な知識なのです。
検証条件:自治体特化の「意地悪な質問」テストセット
では、実際にどの程度の差が出るのか。今回は、公平かつ実務に即した比較を行うため、あえて「意地悪な質問」を含むテストセットを作成し、検証した事例を紹介します。
検証に使用した3つの国産・日本語特化モデル
比較対象として、以下の特性を持つ3つのモデル環境を用意しました(※特定の商用製品名は伏せ、特性で分類します)。
- モデルA(汎用超大規模モデル・日本語調整版):
圧倒的なパラメータ数を誇る海外製モデルをベースに、日本語指示への追従性を高めたもの。基礎能力は高いが、行政知識は一般的。 - モデルB(国産・日本語特化モデル):
日本のテキストデータを中心に学習され、商習慣や行政文書の言い回しに強い中規模モデル。 - モデルC(RAG強化型・特化モデル):
モデルBと同等のエンジンに対し、特定の自治体ガイドラインや条例データを外部知識として参照(RAG: Retrieval-Augmented Generation)させたもの。
評価基準:正答率だけでなく「共感性」と「安全性」
単に正しいURLを提示できたか(正答率)だけでなく、以下の2点を重視して評価しました。
- 共感性: 住民の不安や焦りに寄り添う言葉選びができているか(例:「お困りですね」といったクッション言葉)。
- 安全性: 不確実な情報を断定せず、必要に応じて有人窓口へ誘導する判断ができるか。
テストデータ:実際の住民窓口ログから作成した難問集
検証には、過去に自治体サイトの検索ログや窓口での問い合わせ内容を元にした、以下のような「曖昧かつ複合的な質問」を50問用意して検証が行われました。
- 「旦那が会社辞めたんだけど、保険とかどうなるの?」(国民健康保険と国民年金の両方の切り替えが必要)
- 「家の前の道路に穴が開いてて危ない」(通報の受付と場所の特定が必要)
- 「マイナポイントってまだもらえる?」(制度終了の事実と、代替情報の案内)
検証結果①:行政手続き・申請案内の精度比較
ここからは、実際の回答ログに近い形式で、各モデルの挙動の違いを見ていきます。
複雑な条件分岐(所得制限など)の理解度
質問: 「子供が生まれたので手当をもらいたいんですが、年収800万でも大丈夫ですか?」
モデルA(汎用)の回答:
児童手当の申請が必要です。お住まいの自治体のウェブサイトを確認してください。年収制限については自治体により異なる場合があります。
(評価: △ 正しいが、ユーザーに丸投げしている)モデルB(国産特化)の回答:
お子様のご誕生おめでとうございます。児童手当の支給対象となりますが、所得制限限度額を超える場合は「特例給付」として月額5,000円の支給となる可能性があります。扶養親族の人数によって限度額が変わりますので、源泉徴収票などをご用意いただけますか?
(評価: ◎ 祝福の言葉があり、かつ「特例給付」という具体的制度名と確認事項を提示できている)
この差は大きいです。モデルBは、日本の児童手当制度の構造(所得制限と特例給付の関係)を言語モデルとして学習しているため、文脈に沿った追加質問ができています。
「ゴミの分別」におけるローカルルールの反映
質問: 「壊れた傘と保冷剤を捨てたい」
モデルA(汎用)の回答:
傘は不燃ごみ、保冷剤は可燃ごみとして捨てることが一般的です。地域のルールに従ってください。
(評価: × 一般論で回答しており、自治体ごとのルール(保冷剤を不燃とする地域など)に対応できていない)モデルC(RAG強化型)の回答:
当市の分別ルールでは、傘は骨組みが金属製であれば「燃やさないごみ」、布部分は取り外して「燃やすごみ」に出してください。保冷剤は中身に関わらず「燃やすごみ」となります。傘が指定袋に入らない場合は「粗大ごみ」の申し込みが必要です。
(評価: ◎◎ 外部データベース(ゴミ分別表)を参照し、素材ごとの分解やサイズによる条件分岐まで正確に回答)
ローカルルールが厳格な領域では、モデルの地頭(じあたま)よりも、RAGによる正確なデータ参照が不可欠であることがわかります。
専門用語を平易な言葉に変換する能力
行政用語は難解です。「償却資産税」や「特別徴収義務者」といった言葉を、そのまま住民に投げかけても伝わりません。検証の結果、国産モデルは「要するにこういうことです」と言い換える能力に長けていました。
例えば「後期高齢者医療制度」について尋ねた際、モデルAは制度概要を百科事典的に要約しましたが、モデルBは「75歳以上の方が加入する医療保険です」と、対象者を明確にして平易な言葉で説明しました。この「翻訳能力」こそが、問い合わせ電話を減らす鍵となります。
検証結果②:緊急時・防災情報の伝達スピードと正確性
平時は手続き案内が主ですが、災害時にはチャットボットが「ライフライン」になります。ここではスピードと正確性が命に関わります。
避難所情報などのリアルタイム情報の取り扱い
質問: 「今すぐ逃げたい。近くの避難所は?」
この質問に対し、学習データのみに依存するモデルAやBは、過去の避難所リストを提示するリスクがあります。しかし、災害時には「開設されている避難所」と「満員で入れない避難所」が存在します。
API連携を行ったモデルCでは、「現在地周辺で開設中の避難所は近隣の小学校と公民館です。小学校は混雑しています」といったリアルタイム回答が可能でした。技術的にはAPI連携の問題ですが、ユーザーが「パニック状態にある」ことを検知し、簡潔に結論だけを伝える挙動に関しては、日本語の感情分析に強い国産モデルが優位でした。
パニック状態の住民に寄り添うトーン&マナー
災害時の不安な心理状態において、冷徹な機械的対応は不信感を招きます。
- モデルA: 「避難所情報は以下の通りです。[リンク]」
- モデルB: 「身の安全を最優先に行動してください。現在開設されている避難所をご案内します。雨が強いため、移動には十分ご注意ください。」
後者のような「気遣い」のフレーズが自然に挿入される点は、日本の商習慣や接客データを多く学習しているモデルの特徴と言えます。これは単なるお世辞ではなく、住民を落ち着かせ、冷静な行動を促すための重要なUX(ユーザー体験)設計の一部です。
日本語特化モデルならではの「行間を読む」力
「水が出ない」という短い問い合わせに対し、それが「水道料金未払いによる停止」なのか「災害による断水」なのか、あるいは「宅内設備の故障」なのか。前後の文脈や、その日の市の状況(災害発生中か否か)を考慮して推論する力は、日本語のハイコンテクストな文化を学習したモデルの方が高い精度を示しました。
コストと運用負荷から見る「自治体に最適な選択」
性能が良いことはわかりましたが、自治体には予算の壁があります。「高性能=高コスト」とは限りませんが、運用負荷まで含めたトータルコストで考える必要があります。
精度が高いモデルほど運用は楽になるか?
答えはイエスです。精度が低いモデルを導入すると、誤回答を防ぐために職員が膨大な「想定問答集(シナリオ)」を手動で修正し続ける必要があります。これはDXの逆行です。
一方、文脈理解力の高い特化型モデルであれば、基本的なドキュメント(PDFやWordのマニュアル)を読み込ませるだけで、ある程度の回答精度を担保できます。初期導入コストが多少高くても、日々のメンテナンス工数が激減するため、1〜2年のスパンで見ればコストパフォーマンスは逆転します。
チューニングの手間とランニングコストのバランス
最近のトレンドとして、超巨大な汎用モデルを使うのではなく、パラメータ数を抑えた(軽量な)日本語特化モデルをオンプレミスや専用クラウドで動かす手法が注目されています。
トークン課金(従量制)の巨大クラウドモデルは、予算化しにくいという自治体特有の事情があります。対して、中規模の特化モデルなら定額制で運用しやすく、かつ回答速度も速い。自治体のFAQレベルであれば、何千億パラメータもの知識は不要で、数十億〜数百億パラメータの特化モデルで十分かつ高品質な対応が可能です。
オンプレミスかクラウドか:セキュリティの視点
住民の個人情報を扱う可能性がある場合、LGWAN(総合行政ネットワーク)内での運用や、個人情報をマスクする仕組みが必須です。海外サーバーを経由するクラウド型LLMに対し、国産の特化モデルは国内サーバーやオンプレミス環境へのデプロイ(展開)オプションが豊富な点も、選定時の大きな加点要素となります。
結論:2025年の自治体AIは「賢さ」より「文脈」で選ぶ
今回の検証を通じて明らかになったのは、自治体業務において必要なのは「世界中の歴史を知っているAI」ではなく、「日本の行政手続きの機微を理解し、住民に寄り添えるAI」であるという事実です。
今回の検証で見えたベストプラクティス
最もバランスが取れていたのは、「日本語特化の中規模モデル」に「RAG(検索拡張生成)」を組み合わせ、正確な庁内データ参照能力を持たせた構成でした。これにより、ハルシネーションを抑制しつつ、人間味のある対話が可能になります。
導入前に必ず実施すべき「実証実験」のチェックリスト
これから導入を検討される担当者様は、以下の観点でPoC(概念実証)を行ってください。
- 曖昧語テスト: 「引っ越す」「子供が生まれた」など、単語ではない話し言葉で質問する。
- ローカルルール確認: 自治体独自のゴミ出しルールや助成金制度について正しく答えられるか。
- トーン&マナー: 突き放すような表現がないか、住民に寄り添う姿勢が見えるか。
住民との信頼関係を築くAI活用の第一歩
AIチャットボットは、単なる効率化ツールではありません。それは、24時間眠らずに住民の声に耳を傾ける「デジタル職員」です。その職員が、言葉が通じなかったり、冷たかったりすれば、住民の信頼は損なわれます。
技術は、使う人のためにあります。住民の方々が安心して使えるAI窓口の構築が、これからの行政DXには求められています。
コメント