AI検査の学習データ収集｜不良サンプルが集まらない問題の解き方

AI外観検査の導入でつまずく最大の要因のひとつが「不良サンプルが足りない・偏る」ことだと考えられます。良品が大量に流れ不良はまれにしか出ない現場では、教師あり学習に必要な不良画像が構造的に集まりにくく、ここを設計せずに始めると精度が出ないまま停滞しやすい、というのが実務上の見立てです。

対処は単一の銀の弾丸ではなく、組み合わせが現実的だと考えます。良品基準で異常を捉える考え方、データ拡張、少数不良での学習、VLMの汎化を活かした初期立ち上げ、そして運用しながらデータを育てる仕組みを、現場の不良発生特性に合わせて配分することが鍵になります。

データ収集は「集め終えてから学習する」一度きりの作業ではなく、運用と一体で回す継続プロセスと捉えるのが妥当だと考えます。どの欠陥種が・どの条件で・どれだけ必要かは現物でしか確かめられないため、Nsightでは元キーエンス画像処理事業部出身の監修者の知見を交えながら、現場での検証を通じて一緒に確かめることを推奨しています。

― 01 / 背景と課題

なぜ不良サンプルは構造的に集まらないのか

AI外観検査の話を進めると、技術選定やモデルの種類よりも先に必ずぶつかるのが「学習させたい不良の画像が手元にない」という問題です。これは個社の準備不足というより、品質の良い製造・物流現場ほど起きやすい構造的な問題だと考えられます。良品が大量に流れ、不良はまれにしか発生しない——その健全さそのものが、教師あり学習にとっては逆風になりうる、という捉え方です。

まずこの非対称性を直視しないと、後工程のどんな工夫も空回りしやすくなります。本記事では「不良サンプルが集まらない・偏る」問題を構造から分解し、現場で取りうる対処の選択肢を、断定ではなく検証を前提とした考え方として整理します。

良品しか流れない、という前提

歩留まりの高いラインでは、流れてくるものの大半が良品です。仮に不良率が低い水準で安定している現場であれば、不良1枚を撮るために膨大な良品を通すことになり、狙った欠陥が都合よく出てくるとは限りません。「不良サンプルをN枚集めてから学習を始める」という計画は、この段階で時間軸が現実と合わなくなりがちです。

不良の発生頻度が低く、再現もしにくい

不良は確率的に・散発的に出ます。さらに、発生原因が材料ロット・気温・装置の摩耗・段取り替えなど複数要因に絡むことも多く、「同じ不良を狙って再現する」こと自体が難しい場合があります。意図的に不良を作る（疑似不良）にも、本物と同じ見え方になるとは限らないという限界が残ります。

不良種が多様で、しかも分布が偏る

外観不良はキズ・打痕・異物・印字かすれ・色ムラ・欠け・バリなど多岐にわたり、現場ごとに「よく出る不良」と「めったに出ないが流出すると重大な不良」が混在します。集まったデータは頻出不良に偏り、重大だが希少な不良がほとんど入らない——このクラス不均衡が、見かけの精度と実運用の安心感を乖離させる要因になりやすいと考えられます。

「データがない」は技術以前の論点

外観検査AIの限界や前提については外観検査AIの限界と現実的な解でも触れていますが、データ収集はその土台にあたります。モデルの巧拙を議論する前に、学習対象となる不良をどう確保し、どう育てるかを設計しておくこと——ここが実務上の出発点だと考えます。

― 02 / アプローチ

「不良を集める」から「良品を学ぶ」への発想転換

不良が集まらないなら、不良を集めることだけに賭けない——これが第一の発想転換です。問題を「不良の分類」ではなく「良品からの逸脱の検知」として捉え直すと、必要なデータの性質が変わってきます。

異常検知という考え方

良品の見え方を学習し、そこから外れたものを異常として拾う「異常検知（anomaly detection）」のアプローチは、良品が豊富で不良が乏しい現場と相性が良い可能性があります。原理上は不良ラベルが少なくても立ち上げやすく、「未知の不良」にもある程度反応しうる点が利点と考えられます。一方で、どこからを異常とみなすか（しきい値設計）、良品の正常なばらつきを異常と誤検知しないか、といった調整が運用上の論点になります。

分類か、異常検知か、の二者択一にしない

頻出する既知の不良は分類（不良種を当てる）で精度を狙い、希少・未知の不良は異常検知で取りこぼしを減らす——というように、両者を役割分担させる構成も現実的だと考えます。すべてを一つのモデルで解こうとせず、現場の不良分布に合わせて組み合わせる発想です。検査対象の見える化という観点では工程の可視化の考え方も接続します。

「見逃し」と「過検知」のどちらを許容するか

データが少ない初期ほど、モデルは安全側（疑わしきは不良）に倒すか、効率側（明確な不良のみ）に倒すかの設計判断が効いてきます。重大欠陥の流出を絶対に避けたい工程では、多少の過検知を受け入れて人の確認に回す設計が妥当な場合があります。この判断は精度指標だけでは決まらず、不良が流出したときの実害の大きさという現場固有の事情に依存すると考えられます。

評価指標を最初に決めておく

不良が少ないデータでは「全体正解率」はほとんど意味をなしません（すべて良品と答えても高く出てしまうため）。見逃し率（再現率）や過検知率を、重大度別に分けて見る設計を最初に置くことを推奨します。指標が曖昧なままPoCを進めると、「精度が出た／出ない」の議論自体が噛み合わなくなりやすいと考えられます。

― 03 / 設計

少ない不良データを活かす——拡張・少数学習・転移

不良の確保には限界があるという前提のうえで、手元の少数データを最大限に活かす工夫を重ねます。ここでの基本姿勢は「水増しで数だけ増やせば良い」ではなく、現場で実際に起こりうるばらつきを再現することだと考えます。

データ拡張は「現場の物理」に沿わせる

回転・反転・明るさ・コントラスト・ノイズ付与といったデータ拡張は有効な手段ですが、闇雲にかけると現場ではありえない見え方を学習させてしまう恐れがあります。たとえば、ワークの向きが固定の工程で過度な回転を加える、照明が安定している現場で極端な明暗変動を加える、といった拡張は逆効果になりうると考えられます。「その変動は実際に起こるか」を基準に選ぶのが要点です。

疑似不良・合成データの位置づけ

本物の不良が乏しい場合、傷を人工的に付与する、画像合成で欠陥を重畳する、といった手段で不足を補う考え方があります。ただし合成不良は「本物らしさ」に限界が残ることが多く、合成だけで学習したモデルが現物の不良に通用するとは限りません。あくまで初期の立ち上げを補助する位置づけとし、本物の不良が集まり次第差し替える・併用する運用が現実的だと考えます。

転移学習・少数ショット学習

大規模に事前学習されたモデルを土台に、現場の少数データで微調整する転移学習は、ゼロから学習するより少ないデータで立ち上げやすい可能性があります。数枚〜十数枚規模の少数ショットで傾向を掴ませる手法もありますが、希少な重大欠陥を確実に当てる用途では、少数ショットの結果を鵜呑みにせず人の確認と併走させるのが安全だと考えます。

不均衡への対処

頻出不良に偏ったデータをそのまま使うと、希少不良が学習されにくくなります。希少クラスの重み付けを上げる、過検知側に倒す、希少クラスだけ別系統で扱う、といった対処が考えられますが、いずれも現物データでの効果確認が前提です。指標上の改善が、実際の見逃し低減につながっているかを必ず突き合わせます。

― 04 / アプローチ

VLMの汎化を初期立ち上げにどう活かすか

近年のVLM（視覚言語モデル）は、大量の汎用データで事前学習されているため、現場固有の学習データがほとんどない段階でも、ある程度の判断やゼロショットに近い反応を示しうる点が特徴です。これを「データが揃うまでの空白期間」を埋める手段として位置づける考え方があります。

言葉で検査基準を与えられる

VLMの利点のひとつは、検査基準を自然言語で記述しやすいことです。「ラベルの印字がかすれていないか」「規定の位置に印字があるか」といった指示を言葉で与え、画像と照合させる使い方は、ルールベースで作り込むより立ち上げが速い場合があります。OCRを含む現場での活用はエッジVLM OCRの考え方が参考になります。

「未知の不良」への当たりをつける

学習データに含まれない不良に対しても、VLMは汎用知識から「これは通常と違う」という当たりをつけられる可能性があります。完璧な判定器としてではなく、人が確認すべき候補を絞り込む一次スクリーニングとして使えば、希少不良の取りこぼしを減らす一助になりうると考えられます。

過信は禁物——現物での確認は外せない

一方でVLMは、微細な意匠不良や、現場固有の微妙な許容範囲の判断では、汎用知識ゆえに現場基準と食い違うことがあります。汎化は万能ではなく、「だいたい当たる」と「現場の合否基準に一致する」は別物です。VLMで立ち上げ、出てきた判断結果そのものを新たな教師データとして蓄積し、現場基準へ寄せていく——という運用設計とセットで考えるのが妥当だと考えます。

エッジで動かす前提との両立

現場で使うには応答速度や通信環境の制約も絡みます。モデルの選び方は製造業DXの始め方でも触れている通り、検査要件と運用環境の両面から決める必要があり、汎化性能だけでは選べない点に留意します。

― 05 / 運用

運用しながらデータを育てる仕組み

ここまでの工夫は、いずれも「最終的には本物の不良データが集まるほど安定する」という方向を向いています。だからこそ、検査を止めずに動かしながらデータを育て続ける仕組みが、長期の精度を左右すると考えます。データ収集を一度きりのプロジェクトではなく、運用と一体の継続プロセスとして設計する、という考え方です。

「運用＝データ収集」と捉える

稼働を始めた検査システムは、それ自体が毎日大量の画像を生み出す収集装置でもあります。判定結果と現物の照合を記録し続ければ、立ち上げ時には乏しかった不良データが、運用の中で自然に蓄積されていきます。最初から完璧を狙うより、「動かして集めて育てる」前提で初期設計する方が現実的だと考えられます。

人の確認結果をラベルに還元する

過検知や判断に迷ったものを人が確認する工程は、コストであると同時に、質の高い教師データの源泉でもあります。「人が最終確認したもの」を正解として蓄積し、定期的に再学習へ回す——いわゆるヒューマン・イン・ザ・ループの設計を組み込むことで、データの量と質を同時に育てやすくなると考えます。確認の負荷をどこまで許容するかは、現場の人員体制との兼ね合いで決める論点です。

新しい不良・条件変化への追従

製品リニューアル、材料変更、季節要因、装置の経年変化などで、不良の出方や見え方は変わっていきます。一度学習して終わりにすると、現場の変化に追従できずに精度が劣化する（ドリフト）恐れがあります。判定傾向の変化を監視し、必要に応じて再学習する運用——運用モニタリングのような継続支援の枠組みを前提に置くことを推奨します。

データの管理と再現性

育て続けるデータは、撮影条件・ラベル基準・判定履歴を含めて管理しないと、「なぜこの判定になったか」を後から追えなくなります。どのバージョンのモデルが・どのデータで学習され・どう評価されたかを残す仕組みは、品質保証の観点からも重要になると考えられます。

― 06 / 落とし穴

データ収集でつまずきやすい落とし穴

最後に、データ収集の現場でつまずきやすい点を整理します。いずれも「技術以前の段取り」で防げる可能性があるものです。

撮影条件がバラバラなまま集める：照明・角度・距離・背景が安定しないと、不良の特徴なのか撮影条件のばらつきなのか区別がつかず、データの価値が下がります。収集の前に撮像条件を固める方が結果的に近道だと考えられます。
ラベル基準が人によって違う：「これは不良か良品か」の判断が検査員ごとに揺れると、学習データのラベルが矛盾し、モデルが安定しません。合否基準の言語化・限度見本の整備を先に行うことを推奨します。
頻出不良ばかりで重大不良が入らない：集まりやすい不良に偏ると、まれだが流出すると重大な不良が学習されません。重大度の高い不良を意図的に優先確保する設計が要ります。
合成・疑似不良だけで本番に臨む：本物らしさの限界を見落とすと、現物で通用しないモデルになりがちです。あくまで補助と位置づけ、本物への差し替えを前提にします。
評価指標が「全体正解率」一本：不均衡データでは正解率は実態を映しません。見逃し率・過検知率を重大度別に見る設計が要ります。
集め終えてから学習、で止まる：一度きりの収集で完結させると、条件変化に追従できません。運用しながら育てる前提を最初から組み込みます。
PoCの目的が曖昧：何をもって成功とするかを決めずに始めると、データの過不足を判断できません。PoCの設計段階のつまずきは目視検査をAIで置き換える進め方の観点とも重なります。

これらは個別の技術論ではなく、収集を始める前の設計で大半が決まると考えられます。逆に言えば、ここを丁寧に詰めれば、少ないデータでも前に進める余地は十分にあるという見立てです。

― 07 / ロードマップ

データに振り回されず、育てる前提で始める

ここまで見てきたように、「不良サンプルが集まらない」問題は、単一の手法で解決するものではなく、良品ベースの発想・データ拡張・少数学習・VLMの汎化・運用しながら育てる仕組みを、現場の不良特性に合わせて配分することで現実的に前進しうる、というのが本記事の見立てです。

立ち上げの順序の目安

目安としては、(1) 合否基準と撮像条件を固める、(2) 評価指標（重大度別の見逃し・過検知）を決める、(3) 異常検知やVLMで少データから立ち上げる、(4) 運用しながら人の確認結果をラベルへ還元し再学習する、という順で組むと、データ不足のまま停滞するリスクを下げやすいと考えられます。ただしこれは一般的な目安であり、最適な配分は現場ごとに異なります。

どれだけ集めれば足りるか、は現物でしか分からない

「不良が何枚あれば精度が出るか」という問いに、汎用の正解はありません。欠陥種の見やすさ、許容基準の厳しさ、撮像条件の安定度によって必要量は大きく変わるため、机上で数を見積もるより、少量で立ち上げて現物で確かめながら必要量を見極める進め方が堅実だと考えます。検査要件の設計支援はPoC・導入コンサルティングで受け付けています。

現物・現場で一緒に確かめる

Nsightは、元キーエンス画像処理事業部出身の監修者の知見をふまえ、データ収集の設計から評価指標の置き方、運用しながら育てる仕組みづくりまでを、現物・現場での検証を通じて一緒に確かめることを大切にしています。データが足りないという理由だけでAI検査を諦める前に、まずは手元のサンプルで何がどこまで見えるのか、現物で確かめるところから始めることを推奨します。判断は数値の上だけでなく、現場のワークと向き合って初めて定まるものだと考えています。

― 09 / FAQ

よくある質問

不良サンプルが数枚しかなくても、AI外観検査は始められますか。

始められる可能性はありますが、進め方を選ぶ必要があると考えます。良品を学んで逸脱を捉える異常検知や、VLMの汎化を使った立ち上げであれば、不良ラベルが乏しくても着手しやすい場合があります。ただし希少で重大な不良を確実に当てる用途では、人の確認と併走させ、運用しながらデータを育てる前提を置くのが安全です。何枚あれば足りるかは現物でしか分からないため、まず少量で検証することを推奨します。

合成データや疑似不良だけで学習しても大丈夫でしょうか。

初期の立ち上げを補助する目的では有効な場合がありますが、それだけで本番に臨むのは慎重に判断すべきだと考えます。合成・疑似不良は「本物らしさ」に限界が残ることが多く、現物の不良に通用するとは限りません。あくまで本物のデータが集まるまでのつなぎと位置づけ、運用で得た本物の不良に差し替える・併用する設計が現実的です。効果は必ず現物データで確認することを前提にしてください。

データ拡張（水増し）はどこまでやってよいですか。

「現場で実際に起こりうる変動か」を基準に選ぶのが要点だと考えます。明るさやノイズ、現場でありうる範囲の角度変動などは有効な場合がありますが、ワークの向きが固定の工程で過度な回転を加えるなど、現場ではありえない見え方を学習させると逆効果になりうると考えられます。数を増やすこと自体が目的ではなく、現場の物理に沿ったばらつきを再現することが狙いです。

一度データを集めて学習すれば、その後は手をかけなくて済みますか。

そうとは限らないと考えます。製品リニューアルや材料変更、季節要因、装置の経年変化などで不良の見え方は変わり、一度学習したきりだと精度が劣化（ドリフト）する恐れがあります。運用しながら人の確認結果をラベルに還元し、判定傾向を監視して必要に応じて再学習する——データを育て続ける仕組みを前提に置くことを推奨します。継続的なモニタリングと併せて設計するのが堅実です。

精度が出るかどうか、導入前に見極める方法はありますか。

机上での見積もりには限界があるため、少量のサンプルで立ち上げて現物で確かめる進め方を推奨します。欠陥種の見やすさや許容基準の厳しさ、撮像条件の安定度によって必要なデータ量も精度も大きく変わるためです。PoCの段階で、合否基準・撮像条件・評価指標を先に固めておくと、精度の議論が噛み合いやすくなります。Nsightでは現物検証を通じて、何がどこまで見えるのかを一緒に確かめることを大切にしています。

AI検査の学習データ収集——不良サンプルが集まらない問題の解き方