日本語特化型LLM構築のための継続事前学習とファインチューニングの使い分け

「とりあえずファインチューニング」は失敗の元。日本語LLM構築におけるCPTとSFTの費用対効果と正しい使い分け

2026年1月5日更新 2026年4月5日約14分で読めます

文字サイズ:

「とりあえずファインチューニング」は失敗の元。日本語LLM構築におけるCPTとSFTの費用対効果と正しい使い分け

この記事の要点

CPTとSFTの目的（知識注入か振る舞い調整か）を明確にする
費用、期間、精度を考慮した最適な手法選択の重要性
「とりあえずファインチューニング」が失敗を招く理由

はじめに：その「ファインチューニング」、本当に必要ですか？

「社内の独自データをAIに学習させたいから、ファインチューニングを実施したい」

生成AIの導入プロジェクトが立ち上がる際、実務の現場で非常によく耳にする要望です。生成AIの活用を検討されているプロジェクトマネージャーやエンジニアの方々ほど、「自社データへの適応＝ファインチューニング」という図式が頭に浮かびやすい傾向があります。

しかし、実際のユースケースを論理的に分析すると、抱えている課題の多くは、単なる知識追加を目的としたファインチューニング（SFT：教師あり微調整）だけでは解決が難しいのが現実です。最新の実証データや技術動向においても、SFTはモデルに新しい知識を丸暗記させるためではなく、指示に対する追従性（質問に対して適切な形式で回答する能力）を高めたり、RAG（検索拡張生成）システムと組み合わせて全体の精度を向上させたりするために活用されるのが一般的となっています。そのため、社内規定やマニュアルなどの知識検索・参照が主目的であれば、SFTを行わずともRAGを構築するだけで十分に解決できるケースがほとんどです。

「とりあえずファインチューニング」というアプローチでプロジェクトを安易にスタートさせてしまうと、多額のGPUコストと長期間の開発リソースを費やした挙句、「期待したほど賢くなっていない」「以前より日本語の生成が不自然になった（過学習の発生）」という手痛い失敗を招くことになりかねません。

本記事は、これから自社専用LLM（大規模言語モデル）の構築やカスタマイズを検討されている方々に向けて、継続事前学習（CPT）とファインチューニング（SFT）の違いを論理的かつ明快に解説します。技術的な仕組みにとどまらず、ビジネス的な「投資対効果」と「解決できる課題」の観点から、それぞれの適切な使い分けについて考察します。

これは単なる用語解説ではありません。プロジェクトにおいて、無駄な開発コストや運用リスクを抑えつつ、最短距離でゴールにたどり着くための「意思決定支援ガイド」として活用してください。

この用語集の目的：手法選定の迷いを断つ

なぜ「使い分け」が重要なのか

LLMのカスタマイズにおいて、最も重要なのは「モデルに何をさせたいか」という目的と、それを実現するための「手法」のミスマッチを防ぐことです。

エンジニアリングの世界では、適切な道具を選ぶことが成功の8割を決めると言われますが、LLM開発も例外ではありません。ここで誤った選択をすると、以下のようなリスクが発生します。

コストの浪費: 知識を教え込むためにSFTを繰り返しても、モデルは「それっぽい嘘（ハルシネーション）」をつくだけで、本質的な知識は定着しません。クラウドAIサービスでは企業データを用いたSFT機能が強化されていますが、これらは主にタスク特化のために用いるべきであり、知識ベースの代替として使うと投資対効果が著しく低下します。
精度の劣化: 無理な学習によって、モデルが元々持っていた汎用的な言語能力や論理的思考力が低下する「破滅的忘却（Catastrophic Forgetting）」が起こります。
プロジェクトの頓挫: PoC（概念実証）で成果が出ず、本番開発への予算が承認されない事態に陥ります。

コストと精度のトレードオフ構造

まず、大前提として理解しておくべきなのは、「知識の注入（Knowledge）」と「振る舞いの調整（Behavior）」は別物であるという事実です。

知識の注入: モデルに新しい事実、業界用語、背景知識を理解させること。これには膨大な計算リソースとテキストデータが必要です。（→ 継続事前学習 / CPT の領域）
振る舞いの調整: モデルに特定の形式で回答させたり、特定のトーンで話させたりすること。これには比較的少ないデータと計算リソースで対応可能です。（→ ファインチューニング / SFT、およびその発展系である 強化学習 / RFT の領域）

多くの企業が求めている「自社の業務マニュアルを全部覚えて、的確に回答してほしい」という要望は、実はこの両方の要素を含んでいます。しかし、これをすべてSFTだけで解決しようとするアプローチが、失敗の典型例なのです。最新のトレンドでは、SFTの後工程としてRFT（Reinforcement Fine-Tuning）などの強化学習を取り入れ、モデルの応答品質をさらに高める手法も一般的になりつつあります。

基本概念：学習フェーズを定義する用語

基本概念：学習フェーズを定義する用語 - Section Image

ここでは、LLMが作られるプロセスに沿って、各用語の定義を整理します。教科書的な意味合いにとどまらず、実際のビジネス現場でどのような役割を果たすのかという観点を補足しています。

事前学習 (Pre-training)：言語能力の獲得

定義: 何も知らない状態のモデルに対し、インターネット上の膨大なテキストデータ（数兆トークン）を読み込ませ、言語の構造や一般的な世界知識を学習させるプロセスです。
ビジネス的意味: いわば建物の基礎工事にあたります。ここで「日本語」をどれだけ深く学習しているかが、後のカスタマイズのしやすさを大きく左右します。例えば、海外製のLlamaシリーズは非常に高性能です。Llama 3.3は幅広いサイズ展開と長文脈に対応し、Llama 4ではさらに高度な処理が可能になっています。しかし、汎用チャット向けのLlama 3.3は英語が中心であり、ベースモデルのままでは日本語データの学習量が相対的に少ないため、日本語のタスクには別モデルを優先するか、事前の調整が必要です。一方で、日本語能力を大幅に強化した派生モデルも続々と登場しており、用途に応じた選択肢は着実に広がっています。

継続事前学習 (CPT / Domain Adaptation)：専門知識の注入

定義: 事前学習済みのモデルに対し、特定のドメイン（医療、法律、金融、社内文書など）の大量のテキストデータを追加で読み込ませるプロセスです。「ドメイン適応」とも呼ばれます。
役割: モデルに「新しい分野の教科書」をじっくり読ませるフェーズと言えます。これにより、業界特有の専門用語や独特の文脈を深く「理解」できるようになります。
コスト感: 高。大量のGPUリソースが必要となり、数日から数週間にわたる学習期間を要します。
注意点: このフェーズを完了した段階では、モデルは膨大な「知識」を蓄えた状態ですが、人間と対話形式でスムーズにやり取りする能力はまだ備わっていません。あくまで、入力されたテキストの自然な続きを予測する能力が高まった状態に過ぎない点に注意が必要です。

教師あり微調整 (SFT / Instruction Tuning)：対話能力の獲得

定義: 「指示（Instruction）」と「理想的な回答（Output）」のペアデータを学習させ、ユーザーの意図に従って適切に応答できるように調整するプロセスです。
役割: モデルに「試験対策ドリル」を繰り返し解かせるフェーズに相当します。「このような質問が来たら、こう答えるのが正解である」という対話のパターンを学習させます。
コスト感: 中〜低。CPTと比較すると、必要な計算量は大幅に抑えられます。
注意点: SFTを用いて新しい知識（例えば、昨日発表されたばかりの社内規定など）を丸暗記させるのは不向きです。無理に覚えさせようとすると、モデルが元々持っている既存の知識と混ざり合い、事実とは異なる内容を出力するハルシネーションの大きな原因となります。

RLHF / DPO：出力の品質調整

定義: 強化学習（RLHF）やDPO（Direct Preference Optimization）を用いて、モデルの出力を人間の好みに合うように調整するプロセスです。
役割: 人間社会における「マナー講師による指導」のような位置づけです。より安全で、ユーザーの役に立ち、かつ無害な回答を生成するように微調整を行います。
ビジネス的意味: RLHFは人間のフィードバックを基に報酬モデルを作成し最適化するプロセスとして、継続的に進化しています。クラウド環境での利用ハードルは下がりつつありますが、詳細な仕様については公式ドキュメントで最新情報を確認することが推奨されます。自社でゼロからRLHFの環境を構築するのは依然として稀ですが、クラウドサービスのチューニング機能や、報酬モデルを用いず直接最適化を行う軽量なDPOなどを活用することで、効率的にトーンやスタイルを調整することが現実的な選択肢となっています。

技術手法：計算コストを左右するパラメータ用語

技術手法：計算コストを左右するパラメータ用語 - Section Image

「学習」といっても、実際にモデルの中身をどういじるかによって、必要なGPUスペックやコストが劇的に変わります。ここではエンジニアとの会話で必須となる技術用語を整理します。

フルパラメータチューニング (Full Parameter Tuning)

解説: モデルの全てのパラメータ（重み）を更新する手法。
メリット: モデルの能力を最大限に引き出せます。特にCPT（知識注入）を行う場合は、フルパラメータに近い更新が必要になることが多いです。
デメリット: 莫大なGPUメモリが必要です。大規模なモデルをフルチューニングするには、高性能なGPUを多数並べたクラスタが必要になり、コストが跳ね上がります。

PEFT (Parameter-Efficient Fine-Tuning)

解説: 全てのパラメータを更新するのではなく、ごく一部のパラメータだけを更新したり、追加のアダプタ層を挿入してそこだけ学習させたりする手法の総称です。
ビジネス的意味: 「コスト削減の切り札」です。精度をほとんど落とさずに、計算コストを大幅に削減できる可能性があります。

LoRA / QLoRA (Low-Rank Adaptation)

解説: PEFTの中で現在最も主流な手法です。元のモデルの重みは固定したまま、影響力の大きい一部の行列だけを学習します。QLoRAはさらに量子化（データを軽量化）技術を組み合わせたものです。
メリット: 一般的なゲーミングPCレベルのGPUや、安価なクラウドインスタンスでも学習が可能になります。
使いどころ: SFT（振る舞いの調整）においては、フルパラメータと遜色ない性能が出ることが実証されています。CPTにおいても活用が進んでいますが、知識の定着度合いについては検証が必要です。

Catastrophic Forgetting (破滅的忘却)

解説: 新しいことを学習させた結果、以前学習していた重要なこと（例：一般的な日本語の文法や論理的推論能力）を忘れてしまう現象。
対策: これを防ぐために、学習データに一般的なデータセットを一定割合混ぜたり（Replay）、パラメータの変更量に制約をかけたりする技術的工夫が必要です。

データセット：学習の質を決める素材用語

データセット：学習の質を決める素材用語 - Section Image 3

「Garbage In, Garbage Out（ゴミを入れたらゴミが出る）」はAI開発の真理です。手法選び以上に重要なのがデータの準備です。

生コーパス (Raw Corpus) vs インストラクションデータ

生コーパス: ニュース記事、社内Wiki、マニュアルのPDFなど、加工されていないテキストデータ。CPT（継続事前学習）で使用します。量は「GB（ギガバイト）」単位で必要になることが多いです。
インストラクションデータ: 「質問：〇〇について教えて」「回答：〇〇とは〜です」という対形式のデータ。SFT（ファインチューニング）で使用します。量は数百〜数千件程度でも効果が出ますが、質が命です。

トークナイザー (Tokenizer) と語彙拡張

解説: テキストをAIが理解できる数値の列（トークン）に変換する辞書のようなもの。
課題: 海外製モデルのトークナイザーは日本語の語彙が少なく、1文字1トークンとして扱われるなど効率が悪いことがあります。これはAPI利用料や学習時間の増大に直結します。
対策: 日本語特化モデルを使うか、トークナイザーに新しい語彙を追加（語彙拡張）してからCPTを行うことで、学習効率と推論速度を向上させることができます。

合成データ (Synthetic Data)

解説: 高性能なAIを使って、学習用のデータ（特にインストラクションデータ）を人工的に生成すること。
ビジネス的意味: 人手で作るとコストがかかる高品質なデータ作成を、自動化・低コスト化できます。「教科書はあるが、練習問題がない」という状況で非常に有効です。

意思決定マトリクス：ケース別・最適解の整理

これまでの知識を踏まえ、抱えている課題に対してどのアプローチを取るべきか、3つの典型的なケースで論理的に判断してみましょう。

ケースA：社内用語や業界固有知識が必須な場合

状況: 専門的な製造業などにおいて、一般的なLLMでは全く知らない専門物質名や製造プロセスに関する知識が必要なケース。
推奨アプローチ: RAG (検索拡張生成) + SFT (LoRA)
理由: 知識の更新頻度が高い場合や、正確性が求められる場合、モデルに覚えさせる（CPT）よりも、外部データベースを検索させる（RAG）方が確実で低コストです。SFTは「検索した情報を元に回答を組み立てる」能力を高めるために使います。
例外: 検索だけでは文脈理解が追いつかないほど専門性が高い（言語そのものが特殊）場合は、CPTを検討します。

ケースB：特定の出力形式やトーンを守らせたい場合

状況: カスタマーサポートの自動応答で、自社のブランドトーン（丁寧語、共感的な表現）で返信させたい。あるいは、特定のJSON形式で確実に出力させたいケース。
推奨アプローチ: SFT (LoRA)
理由: これは「知識」ではなく「振る舞い」の問題です。数百件程度の良質な対話例を用意してSFTを行えば、劇的に改善します。CPTは不要です。

ケースC：推論速度とコストを最優先する場合

状況: オンプレミス環境やエッジデバイス（スマホやPC）で動かすため、小型モデル（7B以下）を使いたいが、日本語性能が足りないケース。
推奨アプローチ: CPT + SFT
理由: 小型モデルは基礎能力が低いため、RAGだけではうまく回答を生成できないことがあります。この場合、日本語コーパスでCPTを行い基礎体力を底上げした上で、SFTで指示追従能力をつけるという「フルコース」が必要になります。初期投資はかかりますが、運用コスト（ランニングコスト）を抑えるための投資です。

まとめ：スモールスタートで「学習」の価値を見極める

自社専用LLMの構築は、技術的な魅力がありますが、ビジネスとしては「投資」です。

いきなり多額のコストをかけてフルパラメータでの継続事前学習（CPT）に踏み切るのはリスクが高すぎます。実証に基づいたアプローチとして、おすすめするステップは以下の通りです。

プロンプトエンジニアリングとRAGで限界まで試す: 既存の高性能モデルでどこまでできるかを確認します。
SFT（LoRA）でのPoC: 特定のタスクに絞り、少量のデータでファインチューニングを行い、振る舞いがどう変わるかを確認します。
CPTの検討: それでも「言葉の理解そのもの」に課題がある場合のみ、継続事前学習を検討します。

「自社の場合はどのフェーズから始めるべきか？」「手元にあるデータで学習は可能か？」といった具体的な疑問を抱えるケースが増えています。

単なるモデル開発にとどまらず、学習データの作成から評価指標の設計まで、全体を俯瞰したトータルソリューションの視点を持つことがプロジェクト成功の鍵となります。まずは専門のAIソリューションアーキテクトや開発パートナーに相談し、現状の課題感を論理的に整理するところから始めることをおすすめします。

「とりあえずファインチューニング」は失敗の元。日本語LLM構築におけるCPTとSFTの費用対効果と正しい使い分け - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...