ローカルLLMを活用した完全オフライン型社内AI環境の構築

完全オフラインで構築する「漏洩ゼロ」の社内AI基盤｜ローカルLLM導入と通信遮断の証明手順

この記事は急速に進化する技術について解説しています。最新情報は公式ドキュメントをご確認ください。

2026年1月5日約15分で読めます

文字サイズ:

完全オフラインで構築する「漏洩ゼロ」の社内AI基盤｜ローカルLLM導入と通信遮断の証明手順

この記事の要点

機密情報保護に特化した完全オフラインAI環境の構築
ローカルLLMとRAG（Retrieval-Augmented Generation）による社内データ活用
外部通信を遮断し、情報漏洩リスクをゼロに抑える

業務の現場では、「経営層からはAIによる業務効率化を強く求められる一方で、セキュリティ部門からは機密データをクラウドに上げるなと厳しく制限される」というジレンマに直面するケースが珍しくありません。対話AIを導入する際も、ユーザー体験の向上とセキュリティ要件のバランスをどう取るかが重要な課題となります。

ChatGPTをはじめとするクラウド型AIは非常に強力なツールです。最近でも旧モデルが廃止され、GPT-5.2ファミリーへと一本化されるなど、AIモデルの進化は止まりません。それに伴い、詳細なプロンプト設計やペルソナ付与、カスタムGPTの活用といった最新のベストプラクティスが次々と提唱され、単なるテキスト生成から高度なエージェントワークフローへの移行が進んでいます。しかし、こうした外部サービスは機能の統廃合や仕様変更のリスクが常に伴うだけでなく、厳格なデータ保護が求められる環境では、そもそもクラウドへ情報を送信すること自体が大きな障壁となります。

このような運用上の不確実性やセキュリティの課題を打開し、業務要件を満たすためには、「インターネットに1バイトも送信しない」完全オフラインのAI環境を自社内に構築することが有効な選択肢となります。

「自社専用のAI環境を構築するには、高度な専門知識や数千万円規模のGPUサーバーが必須なのでは？」と懸念される方も多いでしょう。たしかに以前はそのようなハードルが存在しましたが、現在のオープンソース技術の進化は目覚ましく、一般的な業務用PCや小規模なサーバーでも、自然な対話フローを備えた実用的なAIチャットボットを十分に稼働させられます。

外部へのデータ送信が一切許可されない閉域網において、オープンソース技術のみを活用して安全なAI基盤を構築するための実践的なアプローチを整理しました。システムを単に稼働させるだけでなく、情報システム部門やセキュリティ担当者が最も重視する「本当に外部と通信していないことの技術的な証明」についても、自然な対話設計とNLU（自然言語理解）の観点を交えながら紐解いていきます。

1. なぜ「完全オフライン」が必要なのか？リスクとメリットの再定義

まず、技術的な手順に入る前に、なぜ「完全オフライン」にこだわるべきなのか、その理由を整理しておきましょう。これは、上長やセキュリティ部門を論理的に説得する際の材料になります。

クラウド型AIに潜む「見えない」データ流出リスク

「Enterprise版なら学習データに使われないから大丈夫」という説明を聞くことがあります。確かに契約上はそうですが、セキュリティポリシーが厳格な組織においては、それだけでは十分な保証にはなりません。

API経由であれ、クラウドサービスを利用する以上、データは社外のネットワークを通過します。経路上での傍受リスク、サービス提供側のサーバーログへの一時保存、あるいは設定ミスによる意図しないデータ共有のリスクを「ゼロ」にすることは困難です。

API経由でも解決できないコンプライアンスの壁

特に金融や医療の現場では、GDPRやAPPI（改正個人情報保護法）などの法的規制により、特定の機密データを第三者のサーバー（たとえ契約があっても）に処理させること自体が難しい場合があります。「データ主権」を自社で完全にコントロール下に置くためには、物理的にデータが社外に出ない環境が有効な手段となります。

ローカルLLMがもたらす「安心」とコストパフォーマンス

ここで視点を変えて、ローカルLLMのメリットを見てみましょう。

物理的な安全保証: LANケーブルを抜いたサーバー（あるいはファイアウォールで遮断された環境）で動くAIは、物理的にデータを漏洩させることができません。
コストの固定化: クラウドAIは使えば使うほど従量課金（トークン課金）が発生しますが、ローカルなら電気代以外の追加コストは抑えられます。A/Bテストなど、試行錯誤を繰り返す対話設計のプロセスにおいても、予算管理がしやすくなります。
レイテンシの安定: 外部ネットワークの混雑に影響されず、安定したレスポンス速度を維持できます。ユーザーの発話に対して自然なテンポで応答を返すことは、チャットボットのユーザー体験において非常に重要です。

「リスク回避」と「コスト削減」の両立。これこそが、オンプレミス回帰が進む理由の一つと考えられます。

2. 環境準備：高価なGPUサーバーは必須ではない

「自社でLLMを動かすには、データセンタークラスの高価なGPUサーバーが必要だ」という認識が、導入の大きな障壁になっているケースは珍しくありません。

しかし、社内検証（PoC）や特定のタスクに特化した利用であれば、そこまでの重装備は不要だと断言できます。技術の進歩、特に「モデルの軽量化」と「推論エンジンの最適化」により、より身近なハードウェアで実用的な動作が可能になっているからです。

スモールスタートのためのハードウェア選定基準

ローカルLLMの動作要件で最も重要なのは、GPUの計算速度（FLOPS）よりも、モデルを展開するためのVRAM（ビデオメモリ）容量です。

モデルのパラメータ数と量子化レベルに応じた、現実的な選定基準は以下の通りです。

GPU（NVIDIA GeForce系列）:
- 推奨ライン: VRAM 24GBを搭載したモデルが、70億（7B）〜140億（14B）パラメータのモデルを快適に動かすためのスイートスポットです。
- モデル選定: 以前から人気の高いRTX 3090は、現在は旧世代となりましたが、24GBのVRAMを持つため中古市場などでコストパフォーマンスの良い選択肢として依然有効です。新規調達を行う場合は、RTX 4090や、より帯域幅の広い最新世代のハイエンドGPUが推奨されます。これらは推論速度だけでなく、将来的なファインチューニングの試行にも余裕を持てます。
- エントリー層の拡大: 最新のエントリークラスGPUでもVRAM容量が増加傾向（8GB以上が標準化など）にあり、7Bクラスの軽量モデルであれば量子化技術と組み合わせて動作させるハードルは下がっています。
Mac (Apple Silicon):
- M1/M2/M3/M4チップを搭載したMacは、CPUとGPUでメモリを共有する「ユニファイドメモリ」アーキテクチャを採用しており、LLMと非常に相性が良い特徴を持ちます。
- 特にメモリ64GB以上を搭載したMax/Ultraチップ搭載モデルであれば、WindowsのハイエンドPCでも難しいような大規模モデル（30B〜70Bクラス）を、驚くほどスムーズに動作させることが可能です。
CPUのみ:
- GPUがない環境でも、最新のCPUと十分なメインメモリ（RAM）があれば動作自体は可能です。推論速度はGPUに劣りますが、バッチ処理や対話応答速度を求めない用途であれば、十分に選択肢に入ります。

量子化モデル（Quantization）による軽量化の仕組み

一般的なワークステーションやPCでLLMが動作する背景には、「量子化（Quantization）」技術の進化があります。

通常、AIモデルの重みデータは16ビット（FP16）や32ビット（FP32）で表現されますが、これを精度を保ったまま4ビットや8ビットに圧縮する技術です。

精度の維持と効率化: 量子化手法（GPTQやAWQなど）の活用により、モデルサイズを大幅に削減しつつ性能を維持できます。例えばGPTQによる4ビット量子化（INT4）では、モデルサイズを約75%削減（例：140GBを35〜40GBへ圧縮）し、推論速度を3〜4倍向上させながらも、日本語の会話の違和感は最小限に抑えられます。自然な対話フローを維持する上でも、この精度維持は重要です。
メモリ削減効果: 例えば、FP16で約26GBのVRAMを必要とするモデルでも、4ビット量子化を行えば約10GB〜14GB程度に収まり、コンシューマ向けGPUでの動作が現実的になります。
現在のデファクトスタンダードと移行手順: 近年では、CPUとGPUの両方を効率的に活用できるllama.cpp経由での「GGUF」フォーマットの利用が、ローカルLLM実行のデファクトスタンダードとなっています。以前からTransformers等でGPTQやAWQを利用していた場合でも、Hugging Face等で公開されているGGUF形式のモデルをダウンロードし、LM StudioやOllamaなどの実行ツールで読み込むだけで、簡単に最新の軽量化環境へ移行できます。

Windows/Mac/Linux別・推奨セットアップ構成

OSの選定は既存のインフラ環境に依存しますが、安定性とツールの充実度から以下の構成を推奨します。

Linux (Ubuntu):
- AI開発・運用のデファクトスタンダードです。GPUドライバーや最新のLLM実行ツールの対応が最も早く、トラブルシューティング情報も豊富です。専用サーバーを立てるなら第一選択肢です。
Windows (WSL2):
- 社内PCを活用する場合、Windows Subsystem for Linux 2 (WSL2) を使用することで、Windows上でLinux環境を再現できます。GPUへのアクセスもパススルーで容易に行えるため、開発機としての利用に適しています。
Dockerコンテナの活用（必須）:
- どのOSを使用する場合でも、Dockerコンテナを活用して環境を隔離することを強く推奨します。Pythonのライブラリ依存関係やCUDAのバージョン管理は複雑になりがちですが、コンテナ化することでホストOSを汚さず、再現性の高い環境を構築できます。

3. Part 1: ベースライン構築（OllamaによるLLMサービング）

環境準備：高価なGPUサーバーは必須ではない - Section Image

では、実際に構築していきましょう。ここでは、複雑な環境構築を簡単にするツール「Ollama」を使用します。Ollamaは、ローカルでLLMを動かすためのツールとして利用されています。

前提: 作業端末はインターネットに接続されていますが、構築対象のサーバー（または隔離環境）はオフラインであると想定します。必要なファイルは事前にダウンロードして持ち込む運用フローを想定してください。

Ollamaのインストールとネットワーク遮断設定

まず、Ollamaをインストールします。Linuxの場合、通常はcurlでインストールスクリプトを実行しますが、オフライン環境ではバイナリを直接配置します。

バイナリの取得: インターネットに繋がる端末で、OllamaのGitHubリリースページからLinux用バイナリ（ollama-linux-amd64）をダウンロードします。
サーバーへの配置: USBメモリや内部ネットワーク経由で対象サーバーの /usr/bin/ollama に配置し、実行権限を与えます。

# 実行権限の付与
sudo chmod +x /usr/bin/ollama

次に、Ollamaをサービスとして起動しますが、ここで重要なのが外部からのアクセス制御です。デフォルトではlocalhostのみリッスンしますが、社内LANからのアクセスを許可しつつ、インターネットへの通信を防ぐ設定を行います。

# systemdサービスファイルの作成例
# /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
# 外部公開する場合は0.0.0.0だが、ファイアウォールで厳密に制限すること
Environment="OLLAMA_HOST=0.0.0.0"
# モデルの保存先を指定（容量確保のため）
Environment="OLLAMA_MODELS=/opt/ollama/models"

[Install]
WantedBy=default.target

日本語対応モデル（Llama, ELYZAなど）の選定とロード

オフライン環境では ollama run Llamaモデル コマンドでモデルを自動ダウンロードできません。手動でモデルファイルを持ち込む必要があります。

モデルの準備: 外部端末で、Hugging FaceなどからGGUF形式のモデルファイル（例: Llama-3-ELYZA-JP-8B-q4_k_m.gguf）をダウンロードします。
Modelfileの作成: サーバー上で、このモデルファイルを使う定義ファイルを作成します。対話の自然さを担保するため、システムプロンプトで適切なペルソナとフォールバックの挙動を定義します。

# Modelfile
FROM ./Llama-3-ELYZA-JP-8B-q4_k_m.gguf

# システムプロンプトの設定（日本語で応答するように指示し、フォールバックを定義）
SYSTEM """
あなたは誠実で優秀な社内AIアシスタントです。
常に日本語で、敬語を使って丁寧に回答してください。
わからないことは推測で答えず、正直に「わかりません」と答えてください。
"""

モデルの作成: 以下のコマンドでOllamaにモデルを登録します。

ollama create my-jp-model -f Modelfile

CLIでの動作確認とレスポンス速度の検証

モデルが登録できたら、まずはターミナル上で対話してみましょう。

ollama run my-jp-model
>>> こんにちは、今日の業務予定を教えて。

ここでスムーズに日本語が返ってくれば成功です。レスポンスが遅い場合は、GPUが正しく認識されているかログを確認してください。Ollamaは起動時にGPUを検出するとログに出力します。ユーザーテストの観点からも、この段階でのレスポンス速度の確認は重要です。

4. Part 2: 社内知識を注入するRAG（検索拡張生成）の実装

チャットボットが動作するだけでは、ChatGPTのようにはなりません。社内独自の規定やマニュアルを答えられて初めて、業務に役立つツールになります。これを実現するのがRAG（Retrieval-Augmented Generation）です。ユーザーの発話意図をNLUで正確に捉え、適切な情報を検索して回答を生成するフローを構築します。

ベクトルデータベース（ChromaDB）のローカル構築

社内文書を検索可能な形式（ベクトル）で保存するためのデータベースを用意します。ここでは、軽量でローカルファイルとして動作する「ChromaDB」を採用します。

Python環境が必要ですので、事前に pip download コマンド等で必要なライブラリ（langchain, chromadb, sentence-transformers など）のwhlファイルをダウンロードし、オフラインサーバーに持ち込んでインストールしておいてください。

社内ドキュメントの安全な前処理とEmbedding

最も重要なのは、Embedding（文章のベクトル化）もローカルで行うことです。OpenAIのEmbedding APIは使用しません。

日本語に強い軽量モデル（例: intfloat/multilingual-e5-large）をHugging Faceからダウンロードし、ローカルに配置します。

以下は、LangChainを使ってローカルLLMとローカルEmbeddingを組み合わせるPythonコードの例です。

from langchain_community.llms import Ollama
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. ローカルLLMの指定（Ollama）
llm = Ollama(model="my-jp-model", base_url="http://localhost:11434")

# 2. ローカルEmbeddingモデルのロード
# model_nameには事前にダウンロードしたモデルのパスを指定可能
embeddings = HuggingFaceEmbeddings(
    model_name="/path/to/local/multilingual-e5-large"
)

# 3. ベクトルDBの読み込み（事前にデータ登録済みと仮定）
db = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)

# 4. 検索チェーンの作成
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=db.as_retriever(),
    return_source_documents=True
)

# 5. 質問実行
query = "有給休暇の申請期限はいつまでですか？"
res = qa.invoke(query)

print("回答:", res['result'])
print("参照元:", [doc.metadata['source'] for doc in res['source_documents']])

このスクリプトは、ローカル内のリソースだけで完結します。外部APIキーの設定も不要ですし、インターネット接続がなくても動作します。

5. Part 3: 「本当に漏れていない？」を証明するセキュリティ検証

Part 2: 社内知識を注入するRAG（検索拡張生成）の実装 - Section Image

ここからが重要な点です。システムを構築しただけでは、セキュリティ担当者は納得しない可能性があります。「通信していない」ことを客観的に証明する必要があります。論理的なアプローチで安全性を提示しましょう。

パケットキャプチャによる通信監視の実践

ネットワークプロトコルアナライザである「Wireshark」や、コマンドラインツールの「tcpdump」を使って、AIサーバーの通信を監視します。

検証手順:

監視開始: サーバー上でパケットキャプチャを開始します。

sudo tcpdump -i any -w capture.pcap not port 22
# SSH(22)以外の全通信を記録

AI利用: この状態で、実際にチャットボットに質問を投げたり、RAG検索を行ったりします。
解析: 取得した capture.pcap ファイルをWiresharkで開きます。

確認ポイント:

DNSクエリ（UDP 53）が発生していないか？（外部ドメインの名前解決をしていないか）
HTTP/HTTPS通信の宛先がすべてローカルIP（192.168.x.xなど）であるか？
OpenAIやHugging FaceのIPアドレスへの接続試行がないか？

ファイアウォール設定とアクセス制御リスト（ACL）

証明だけでなく、物理的な強制力も示しましょう。Linuxの ufw や iptables で、アウトバウンド（外向き）通信を完全に遮断する設定を行います。

# デフォルトですべての送信を拒否
sudo ufw default deny outgoing
# デフォルトですべての受信を拒否
sudo ufw default deny incoming

# 社内LANからのSSHとAPIアクセスのみ許可（例: 192.168.1.0/24）
sudo ufw allow from 192.168.1.0/24 to any port 22
sudo ufw allow from 192.168.1.0/24 to any port 11434

# 有効化
sudo ufw enable

この設定を見せることで、「誤ってプログラムが外部通信しようとしても、OSレベルでブロックされる」ことを示せます。

情報システム部門への提出用：安全性証明レポートの作成ポイント

最後に、これらの検証結果をレポートにまとめます。以下の要素を含めると、承認を得やすくなります。

アーキテクチャ図: すべてのコンポーネントがファイアウォールの内側にあることを図示。
パケットキャプチャのスクリーンショット: 通信ログがローカルのみであることを示す証拠。
モデルのハッシュ値: 使用しているモデルファイル（GGUF）のSHA256ハッシュ値を記載し、オリジナルの配布元と一致すること（改ざんやバックドアがないこと）を証明。

6. トラブルシューティングと運用設計

導入後、現場からよく挙がる課題と対策をまとめておきます。ユーザーテストと改善のサイクルを回す上で、これらの対応は不可欠です。

「回答が遅い」「ハルシネーション」への対処法

回答が遅い: 同時アクセス数が増えていませんか？Ollamaはデフォルトではリクエストを順次処理します。並列処理数を増やす設定（OLLAMA_NUM_PARALLEL）もありますが、VRAMを消費します。GPUを追加するか、推論専用サーバーを増設してロードバランサを入れるのが有効です。
嘘をつく（ハルシネーション）: RAGの検索精度が低い可能性があります。Embeddingモデルを変えてみるか、検索結果の上位何件をLLMに渡すか（kの値）を調整してください。また、システムプロンプトで「文書にないことは答えないで」と強く制約するフォールバック設計も有効です。ユーザーの発話パターンを分析し、どのような質問でハルシネーションが起きやすいかを特定して改善を繰り返します。

モデルの更新とバージョン管理

オープンソースモデルは進化しています。新しいモデルが出た場合でも、すぐに最新版に移行するのは危険です。検証済みのモデルバージョン（およびそのファイルハッシュ値）を固定し、変更する際は必ず検証環境（Staging）でパケットキャプチャを含むセキュリティテストと、対話フローのA/Bテストを再実施する運用フローを確立してください。