製造現場の「熟練工の技」をデジタル化できない壁：暗黙知の教師データ化における限界

熟練工の「勘」はなぜAIに学習できないのか？文脈をデータ化するマルチモーダル戦略と暗黙知の壁突破法

2026年1月5日更新 2026年5月10日約19分で読めます

文字サイズ:

熟練工の「勘」はなぜAIに学習できないのか？文脈をデータ化するマルチモーダル戦略と暗黙知の壁突破法

この記事の要点

熟練工の技は言語化・数値化が難しい「暗黙知」である
AIが学習するために必要な「文脈情報」の欠落
製造業DXにおけるAI学習データ不足の主要因

センサーは嘘をつかないが、真実のすべてを語るわけでもない

「最高スペックの振動センサーと4Kカメラを全ラインに入れました。データレイクはパンクしそうです。でも、AIがベテランの『あの判断』をまったく再現できないんです」

製造現場では、こうした悲痛な叫びが後を絶ちません。DX推進担当者や生産技術者の方々が、上層部からのプレッシャーと現場の冷ややかな視線に挟まれながら、藁をも掴む思いで集めたテラバイト級のデータ。しかし、いざ蓋を開けてデータサイエンティストに見せてみると、「これでは意味のある特徴量が出ません」と突き返される。

そこにあるのは「意味のない数字の羅列」に過ぎなかった——。そんな絶望的な状況は、実務の現場で頻繁に発生しています。

ITコンサルタント（AI導入・データ活用支援）の視点から見ると、国内の大手製造業で生産技術として品質改善を主導し、その後IT企業にて製造現場向けのAI導入プロジェクトで品質予測や異常検知などの技術を実装してきた経験則から言えることがあります。それは、現場の状況に合わせた現実的な提案、すなわち小さく始めて成果を可視化し、段階的にスケールアップする導入戦略が不可欠だということです。適切に導入を進めれば、工場の稼働率を10〜15%向上させることも十分に可能です。

なぜ、熟練工の技はAI化できないのでしょうか？

結論から申し上げます。皆さんが必死に集めているデータには「文脈（コンテキスト）」が決定的に欠落しているからです。

熟練工は、目の前のワーク（加工対象物）の状態だけでなく、その日の気温、機械の機嫌（わずかな振動や音）、昨日のトラブル履歴、そして過去数十年の経験則を総動員して、瞬時に「直感的な判断」を下しています。彼らの脳内では、膨大な変数が複雑に絡み合い、計算されています。

しかし、一般的なIoTプロジェクトでは、結果としての「加工データ」や「センサー値」しか記録しません。「なぜその時、熟練工が送りを緩めたのか？」「なぜ切削油の流量を変えたのか？」という判断のプロセス（思考）がデータに含まれていないのです。

意図が含まれていないデータをいくらディープラーニングに食わせても、AIは「表面的な相関関係」しか学びません。結果として、少しでも条件が変わると使い物にならない、ひ弱なモデルが出来上がります。「学習データでは精度99%だったのに、現場投入初日に誤検知連発」という悲劇は、こうして生まれます。

本記事では、この「暗黙知の壁」をどう技術的に突破するか、その泥臭いエンジニアリング手法について、実務での教訓も交えながら解説します。魔法のようなAIツールは紹介しません。代わりに、認知心理学的なアプローチをデータ作成に応用する手法や、マルチモーダル（多角的な）データ収集の設計図など、現場で汗をかくための羅針盤を提供します。

「AIですべてを解決できる」という幻想はいったん捨ててください。その代わり、確実に「使えるAI」を作るための、地道ですが確実な道筋を一緒に歩んでいきましょう。

1. 熟練工の技が「データ」にならない構造的要因

まず、敵を知ることから始めましょう。なぜ熟練工の動作をセンサーで記録しても、AIはそれを学習できないのか。その根本原因は、「暗黙知」と「形式知」のギャップをデータサイエンスの文脈で捉えきれていないことにあります。

センサーデータだけでは「意図」が見えない

具体的なシーンを想像してみてください。例えば、精密部品の研磨工程です。

熟練工が作業中にふと手を止め、研磨圧を微妙に弱めたとします。センサーデータ上には「圧力の低下」という波形が記録されます。AIはこの波形を見て、「加工開始から30秒経過したら圧力を下げるのが正解パターンだ」と学習するかもしれません。

しかし、熟練工に話を聞くと、事実は全く異なります。
「いや、指先に伝わる微振動が変わったんだよ。砥石の目が詰まりかけた感触があったから、少し浮かせて逃がしたんだ」

つまり、圧力を下げた本当の理由は「時間経過」ではなく、「砥石の目詰まりの予兆（微振動の変化）」だったのです。もしAIが時間をトリガーにして圧力を下げていたらどうなるでしょうか？砥石が正常な状態でも圧力を下げてしまい、加工時間が増大するか、最悪の場合は面粗度不足に陥ります。

センサーは物理現象（結果）を記録しますが、その背後にある熟練工の「意図」や「判断トリガー」までは記録しません。これが、時系列分析単体での学習が失敗する最大の要因です。「What（何をしたか）」はデータになりますが、「Why（なぜしたか）」が欠落しているのです。

「良い音」「良い感触」の定量化における壁

現場でよく聞く「カン・コツ」という言葉。これもデータ化を阻む大きな壁です。

「ここは『シュッ』じゃなくて『ジュワッ』という音がしたら止めるんだよ」

ベテランの方からこんな指導を受けることは珍しくありません。この擬音語（オノマトペ）には、周波数成分、音圧の変化、持続時間、立ち上がりの鋭さなど、極めて複雑な情報が圧縮されています。

これを単にマイクで録音し、FFT（高速フーリエ変換）にかけて周波数スペクトルを見ても、熟練工が聞き分けている「特徴」がノイズに埋もれて見えないことが多々あります。熟練工の脳内では、カクテルパーティー効果のように、無意識のうちに特定の周波数帯域だけをフィルタリングし、工場の背景ノイズを除去して判断しています。

しかし、生の音声データにはコンプレッサーの音も、隣のラインの走行音もすべて含まれており、AIにとっては「どれが重要な信号か」を識別する手掛かりがありません。人間が無意識に行っている「注意機構（Attention）」を、データ前処理の段階で再現してやる必要があるのです。

SECIモデルをデータエンジニアリング視点で再解釈する

ナレッジマネジメントの分野で有名な「SECI（セキ）モデル」をご存知でしょうか。暗黙知を形式知に変え、組織で共有するスパイラルモデルです。

AI開発において、私たちはこのプロセスを無視していきなり「データ収集」に走りがちです。SECIモデルで言えば、「共同化（Socialization）」と「表出化（Externalization）」をスキップし、いきなりセンサーデータという「連結化（Combination）」のフェーズから始めてしまうのです。

データエンジニアリングの視点でSECIモデルを再解釈すると、以下のようになります。

共同化（Socialization）: 熟練工の作業を観察し、同じ時間を共有する（現場観察・弟子入り）
表出化（Externalization）: 熟練工にインタビューし、判断基準を言語化させる（アノテーション・ラベル定義）
連結化（Combination）: 言語化された情報とセンサーデータを紐付ける（特徴量抽出・モデル学習）
内面化（Internalization）: AIの推論結果を現場に戻し、新たな気づきを得る（運用・改善・再学習）

この「表出化」のプロセス、つまり熟練工の頭の中にあるロジックを言語データとして抽出し、センサーデータにタグ付けする工程こそが、今のAI開発に最も欠けているピースなのです。ここを疎かにして高価なGPUサーバーを導入しても、ただの電気代の無駄遣いに終わります。

2. データ収集設計：マルチモーダルによる「文脈」の捕捉

データ収集設計：マルチモーダルによる「文脈」の捕捉 - Section Image

では、具体的にどうすれば「文脈」をデータ化できるのでしょうか。答えは、単一のセンサーに頼らず、複数の情報源を組み合わせる「マルチモーダルデータ収集」にあります。五感をデジタルデバイスで代替し、再構成するアプローチです。

IoTセンサー×映像×視線計測の同期収集

熟練工の「カン・コツ」を解明するには、以下の3つの視点を同時に、かつ同期して記録する必要があります。

物理データ（What）: 振動、電流、圧力、温度、トルクなど（IoTセンサー、PLCログ、OPC UA経由の設備データ）
視覚情報（Where）: 熟練工がどこを見ているか、何を確認しているか（アイトラッキンググラス、固定カメラ）
操作情報（How）: 手の動き、姿勢、工具の角度、力加減（モーションキャプチャ、筋電センサー、映像）

例えば、溶接作業において、熟練工は溶融池（プール）の広がり具合や色を見てトーチの速度を調整しています。これを電流・電圧データだけで予測するのは不可能です。「電流が安定しているから良し」ではなく、「プールが広がりすぎたから電流を下げた」という因果関係があるからです。

アイトラッキングで「溶融池の端を見ている」ことを特定し、その瞬間の高解像度映像データから「色の変化」を画像解析で特徴量として抽出して初めて、電流値の変化と因果関係を結びつけることができます。これがマルチモーダル学習の真髄です。

サンプリングレートの不一致をどう解決するか

ここで技術的に大きな壁となるのが、データの「時間のズレ」と「密度の違い」です。これは実務の現場で最も苦労する点でもあります。

振動センサー: 10kHz（1秒間に1万回）
カメラ映像: 30fps（1秒間に30回）
PLCログ: 100ms周期（1秒間に10回）

これらはバラバラの時計で動いています。いざ分析しようとしたとき、「異常振動が発生した0.05秒後、映像では何が起きていたか」を確認しようとしても、タイムスタンプがズレていては正確な因果関係が特定できません。Windowsのシステム時刻などは平気で数秒ズレます。

解決策として、NTP（Network Time Protocol）サーバーによるミリ秒単位の時刻同期を徹底することが推奨されます。しかし、それだけでは不十分な場合もあります。高速な現象を捉える場合は、全センサーに同時に電気信号（トリガー）を送るハードウェア同期や、映像内にLEDの点滅を入れて時刻の手がかりにするアナログな手法も併用します。

この「データ収集基盤の設計」をおろそかにすると、後の分析フェーズで地獄を見ることになります。「データクレンジングに全工数の8割がかかる」と言われる所以はここにあります。データは「集める」ものではなく、設計図に基づいて「作る」ものなのです。

環境変数（温度・湿度・材料ロット）のメタデータ化

忘れがちなのが、環境変数の記録です。「今日は雨だから湿気が多い」「材料のロットが変わった」といった情報は、熟練工にとっては当たり前の前提条件ですが、AIにとっては未知の変数です。

これらの情報は、センサーデータそのものには含まれません。日報やMES（製造実行システム）からデータを連携し、学習データに対する「メタデータ」として付与する必要があります。

「朝一番の冷え切った機械」と「昼過ぎの温まった機械」では、同じ加工条件でも結果が変わります。熟練工は無意識に補正値を入れていますが、AIには「機械温度」や「稼働時間」という変数を明示的に与えない限り、その補正ロジックを学習できません。

実際の導入事例では、AIの精度が夕方になると落ちるという現象が報告されています。原因は「西日」でした。西日が差し込んでカメラの露出が変わり、画像認識の精度が落ちていたのです。これも「照度センサー」や「時刻情報」をモデルに組み込むことで解決しました。現場には、データに見えない変数が無数に潜んでいます。

3. データクレンジングと「正解」の定義

データを集めた後、次に直面するのが「正解（Ground Truth）がない」という問題です。製造業特有の「正解の曖昧さ」や「データの偏り」にどう対処すべきでしょうか。

熟練工ごとの「流儀（バイアス）」の標準化

Aさんは「早めに送りをかける」、Bさんは「じっくり待つ」。どちらも最終的には良品を作りますが、プロセスデータは全く異なります。これを混ぜてAIに学習させると、AIは混乱し、どちらの特徴も捉えられない「平均的で役に立たないモデル」になってしまいます。

対策としては、まずは「エース級の熟練工一人」に絞ってモデル化することが強く推奨されます。まずは一人の「正解」を徹底的に模倣し、ベースラインを作ります。いわば「師匠AI」を作るのです。

その後、他の作業者のデータを転移学習（Transfer Learning）などで適応させるか、あるいは「Aさんモード」「Bさんモード」としてモデルパラメータを切り替える運用も現実的です。もし現場で作業標準化が進んでいないなら、AI導入の前にSOP（標準作業手順書）の整備を行うべきです。AIは魔法ではなく、標準化の延長線上にある技術だからです。

成功データと失敗データの不均衡処理

日本の製造現場は優秀すぎて、不良品が滅多に出ません。学習データのうち99.9%が「良品」で、異常データは0.1%しかないという状況はザラです。これを「不均衡データ問題」と呼びます。

このまま学習させると、AIは「常に良品と答えておけば正解率99.9%になる」というズルを覚えます。これを防ぐために、以下の戦略をとります。

異常データの擬似生成（Data Augmentation）: 過去のトラブル事例を再現実験し、わざと不良品を作ります。コストはかかりますが、最も質が高いデータが得られます。「テストピース」を犠牲にする勇気が必要です。
異常検知（Anomaly Detection）アプローチ: 「正解（良品）」の分布だけを学習させ、そこから外れたものを「異常」とみなす手法（One-class SVM、Autoencoder、Mahalanobis距離など）を採用します。これなら異常データがゼロでもモデル構築が可能です。

「なんとなくおかしい」の異常検知ラベル作成法

熟練工は「なんとなくおかしい」という曖昧な表現を使います。これをどうラベル化するか。

ここでは、データの信頼度ランクを付ける手法が有効です。

Label A: 明らかな不良（寸法外れ、傷など）
Label B: 熟練工が「違和感」を感じたが、製品としては良品（グレーゾーン）
Label C: 完全な良品

この「Label B」が宝の山です。AIにはLabel AとCの分類だけでなく、Label Bを予兆として検知させるタスクを解かせます。「良品だけど、何かがおかしい」というグレーゾーンを定量化することこそ、予知保全の第一歩です。このLabel Bをいかに多く収集できるかが、プロジェクトの成否を分けます。

4. 暗黙知のアノテーション：定性を定量へ変換するプロセス

暗黙知のアノテーション：定性を定量へ変換するプロセス - Section Image

ここが本記事のハイライトです。収集したマルチモーダルデータに対し、いかにして「熟練工の意図」をタグ付け（アノテーション）するか。ここで心理学の手法が登場します。

発話プロトコル法を用いたラベル付けワークフロー

発話プロトコル（Think Aloud法）とは、認知心理学で用いられる手法で、作業中に頭に浮かんだことをすべて口に出してもらいながらタスクを行うものです。

しかし、製造現場で作業中にブツブツ喋り続けるのは危険ですし、集中力を削ぎます。そこで「事後的発話プロトコル」を採用することが有効です。

作業記録: 熟練工の作業をウェアラブルカメラとセンサーで黙って記録する。
回顧インタビュー: 作業終了後、熟練工と一緒にその録画映像を見返す。
タグ付け: 「ここでなぜ手を止めたのですか？」「画面のどこを見ていましたか？」と質問し、熟練工のコメントをタイムスタンプ付きで記録する。

「あ、ここは音が『キン』って高くなったから送りを緩めたんだよ」
このコメントが得られた瞬間、その時間のセンサーデータに「高周波音検知」「送り速度減速」という正解ラベルが付与されます。これがなければ、単なるノイズとして処理されていたデータが、意味のある教師データに昇華されるのです。このインタビューこそが、最も重要なデータエンジニアリング工程です。

動作のセグメンテーション（分節化）技術

連続した作業データを、意味のある単位（セグメント）に切り分ける作業も重要です。例えば「位置合わせ」「締め付け」「確認」といったフェーズごとにデータを分割します。

熟練工の動きは流れるようで、フェーズの切れ目が曖昧です。しかし、加速度センサーの波形を詳細に分析すると、フェーズ転換点には特有の「迷い（微細な停止）」や「加速の切り替わり」が現れることがあります。

これを手がかりにデータを自動または半自動で分節化し、フェーズごとに特化したモデルを作成するアプローチが効果的です。「締め付け用モデル」「確認用モデル」と分けることで、全体の推論精度が20%以上改善するケースも珍しくありません。一つの巨大なモデルですべてを解こうとしないことがコツです。

特徴量エンジニアリングによる「コツ」の数値化

「滑らかに動かす」というコツをどう数値化するか。単に速度を見るだけでは不十分です。

ここでは「躍度（ジャーク：加加速度）」という物理量を見ることがあります。加速度の変化率を表す指標で、動きの「滑らかさ」を定量化できます。熟練工の動きは、この躍度が最小になるような軌道を描くことが多いのです。

他にも、力の入り具合を見るための「筋電位の積分値」や、迷いのなさを測る「視線停留時間」など、現場の言葉（滑らか、勢いよく、じわっと）を、物理学の指標（躍度、インパルス、エントロピー）に変換する翻訳作業こそが、AIエンジニアの腕の見せ所です。

5. 完全自動化の限界と「Human-in-the-loop」システム

4. 暗黙知のアノテーション：定性を定量へ変換するプロセス - Section Image 3

ここまで技術的なアプローチを解説してきましたが、最後に冷や水を浴びせるようなことを言います。どんなに頑張っても、熟練工の技を100% AI化することは不可能です。

100%の再現は不可能であることを前提としたシステム設計

製造現場は生き物です。新しい材料、工具の摩耗、季節の変わり目、突発的な設備トラブル。これら全ての組み合わせを学習データとして網羅するには、無限の時間が必要です。AIは「学習したことのある状況」には強いですが、「未知の状況」にはめっぽう弱いのです。

したがって、目指すべきは「完全自動化」ではなく、AIが人と協調する「Human-in-the-loop（人間参加型）」システムです。これを最初から設計思想に組み込んでおくことが重要です。

信頼度スコアによるAIと人の協働判断

AIモデルには、予測結果と共に必ず「信頼度（Confidence Score）」を出力させます。

信頼度90%以上: AIが自動で判断・制御する。（定常運転時はこれでOK）
信頼度90%未満: 「判断できません」とアラートを出し、熟練工に判断を仰ぐ。

この設計にすることで、AIは「自信がある得意な領域」だけを担当し、難しいケース（レアケースや未知の異常）は人間に任せるという役割分担が可能になります。結果として、誤検知によるライン停止時間を半減させるなど、現実的な運用が可能になります。「分からない」と言えるAIを作ることが、信頼への第一歩です。

継続的なフィードバックループの構築

重要なのは、AIが「分かりません」と人間に投げたケースこそが、AIを賢くするための最良の教材だということです。

熟練工がそのケースを判断し、正解を入力する。そのデータを再学習（Re-training）させることで、AIは徐々に苦手分野を克服していきます。この「運用しながら育てる」サイクル（MLOps）を構築することこそが、プロジェクトの真のゴールです。

かつてはモデルを作り切りで終わるケースもありましたが、現在のAI運用において継続的な学習パイプラインの構築は不可欠です。導入して終わりではありません。そこからが、AIという「新人」の教育期間の始まりなのです。熟練工にとっても、AIを育てるという行為は、自身の技術を客観視し、継承していくモチベーションになり得ます。

まとめ：AIは「魔法の杖」ではなく「優秀な弟子」である

熟練工の技をデジタル化できないのは、技術の限界というよりは、アプローチの解像度が粗いことが原因です。センサーデータという「結果」だけでなく、熟練工の「意図」や「文脈」をデータ化するプロセスが必要です。

本記事のポイントを振り返ります。

文脈の欠如: センサーデータだけでは熟練工の「判断プロセス」は見えない。意図を汲み取る設計が必要。
マルチモーダル収集: 映像、視線、センサーを同期させ、多角的に記録することで「カン・コツ」を捕捉する。
発話プロトコル: 回顧インタビューで「暗黙知」を言語化し、データにタグ付けすることで、質の高い教師データを作る。
Human-in-the-loop: 完全自動化を諦め、AIが自信のない領域を人がカバーする協働モデルを作ることで、現実的な運用を可能にする。

AIを「熟練工を置き換える魔法の杖」と考えると失敗します。そうではなく、「熟練工の背中を見て育つ優秀な弟子」と考えてください。最初は未熟でも、適切な指導（良質なデータとフィードバック）を与えれば、やがて頼もしいパートナーに成長します。

現場には、まだ言語化されていない「宝の山」が眠っているはずです。それを掘り起こすための具体的な設計図、つまり「どのようなセンサー構成で、どうアノテーションし、どう運用フローに落とし込むか」については、現場ごとのカスタマイズが不可欠です。

まずは、現場の熟練工と対話し、彼らが何を見ているのかを観察することから始めてみてはいかがでしょうか。カイゼンの精神とデータ分析を融合させ、継続的な改善を推進していくことこそが、工場の「匠の技」を次の時代へ繋ぐための第一歩となるはずです。

熟練工の「勘」はなぜAIに学習できないのか？文脈をデータ化するマルチモーダル戦略と暗黙知の壁突破法 - Conclusion Image

参考リンク

Amazon Web Services (AWS) - MLOps とは?

コメントは1週間で消えます

コメントを読み込み中...