なぜ不良サンプルは集まらないのか｜少数不良の壁

「不良品の画像を学習させたい」という発想は自然ですが、品質管理が行き届いた工程ほど不良発生率は低く、十分な枚数のNG画像が物理的に集まりにくい構造があります。これは現場の努力の裏返しであり、避けがたいジレンマと考えられます。

大量の良品と少数の不良という「データ不均衡」は、画像分類の常識的な学習アプローチと相性が悪い側面があります。NG画像生成や合成データでデータを補う、あるいは少数データでも判断できる仕組みを選ぶ、といった発想の転換が現実解になりうると考えます。

完璧なデータセットを待つより、まず手元の現物と現場で何が良品で何がNGなのかを客観的に把握し、小さく検証を回すことが出発点になります。データは「集めてから始める」のではなく「回しながら育てる」ものと捉え直すのが有効だと考えます。

― 01 / 背景と課題

良い工場ほど不良が出ない——という現場のジレンマ

「AIで外観検査を自動化したい」という相談の多くは、技術選定の話に入る前に同じ場所でつまずきます。学習させるための不良品の画像が、手元にほとんどない——これが現実です。担当者が過去の不良を探しに行っても、廃棄済みで現物が残っていない、写真は撮っていない、あっても数枚しかない、というケースが珍しくありません。

これは現場の怠慢ではなく、むしろ逆です。日々の改善活動や工程管理が機能している工場ほど不良発生率は低く抑えられており、結果として「学習に使えるNG画像」という資源が枯渇している状態になります。品質を高める努力が、皮肉にも検査自動化のデータ収集を難しくしているわけです。良品しか作れない現場ほど、不良サンプルに困るというジレンマが生まれます。

「不良画像を集めてから」では始まらない

よくある進め方は「まず数百枚の不良画像を集めてから検討しましょう」というものです。しかし不良発生率が低い工程では、必要枚数が貯まるまでに数か月から年単位を要することもあり、その間にプロジェクトの熱量も予算も失われがちです。さらに困るのは、いざ不良が出ても「どの種類の不良が」「どんな見え方で」出るかが事前には分からない点です。傷・欠け・異物・寸法外れ・印字かすれなど、不良の種類ごとに見え方は大きく異なり、特定の不良だけが偏って集まる事態も起こります。

つまりこの課題は「もっと頑張って集める」では構造的に解けません。集まらないことを前提に、検査自動化のアプローチそのものを設計し直す必要があると考えられます。

― 02 / 論点整理

「データ不均衡」と「未知の不良」という二つの本質

不良サンプルが集まらない問題を分解すると、性質の異なる二つの論点が見えてきます。一つは大量の良品と極端に少ない不良という「データ不均衡」、もう一つは「そもそも将来どんな不良が出るか分からない」という未知性です。この二つを混同したまま手法を選ぶと、後で行き詰まりやすくなります。

データ不均衡が学習を歪める

良品99に対して不良1、といった偏ったデータで素朴に画像分類モデルを学習させると、「すべて良品と答えれば高い正答率になる」状態に陥りやすくなります。見かけの精度は高くても、肝心の不良をほとんど見逃すモデルになりうるのです。少数不良への向き合い方は、不良サンプル不足の解決という観点で個別に設計する価値があります。重要なのは、不均衡そのものを前提に置いた評価指標や手法を選ぶことだと考えます。

未知の不良は「網羅」できない

もう一つの本質は、過去に出た不良を全部集められたとしても、明日出る新種の不良は学習データに含まれていない、という点です。製造条件や材料ロット、季節変動によって、これまで見たことのない見え方の不良が突然現れることがあります。「不良を分類して当てる」という発想だけで設計すると、未知の不良に対して構造的に弱くなります。良品の見え方を基準に「いつもと違う」を検出するアプローチを併用するなど、二つの論点に別々に答える設計が現実的だと考えられます。

― 03 / アプローチ

足りないデータを「補う」——NG画像生成と合成データ

集まらないなら作る、という発想が一つの方向です。良品画像をベースに、傷や欠け、異物付着、汚れといった不良の特徴を人為的に重ね合わせ、擬似的なNG画像を生成する手法があります。CG的に対象物を再現してさまざまな不良状態をレンダリングする合成データによる検査の考え方もこの系譜です。物理的に発生を待つしかなかった不良サンプルを、ある程度コントロールしながら用意できる点が魅力です。

生成データはあくまで「橋渡し」

ただし誠実に言えば、生成・合成したデータが実際の不良の見え方を完全に再現できる保証はありません。現実の傷は照明の当たり方や素材の質感、汚れの広がり方まで多様で、生成画像と本物の間にはどうしてもギャップ（ドメインギャップ）が残りうるからです。生成データだけで学習を完結させるのではなく、本物の良品画像と少数の実不良で補正・検証しながら使う「橋渡し」として位置づけるのが堅実だと考えます。

近年は、不良の特徴を言葉やサンプルで指定して画像を生成し、それを学習や評価に活用する流れも出てきています。NG画像生成とVLMのように、生成と判断を同じ技術系統でつなぐアプローチは、データが乏しい現場での選択肢を広げうると考えられます。いずれの場合も、生成画像の妥当性は現物と照らして確認することが前提になります。

― 04 / 設計の考え方

少数データでも判断できる仕組みを選ぶ——VLMという選択肢

データを補うのと並行して、「そもそも大量の不良画像を必要としない仕組みを選ぶ」という設計判断があります。従来の深層学習ベースの画像分類は、各クラスについて多数の例示画像を学習させて初めて性能が出る傾向があり、これが不良サンプル不足とまっこうから衝突します。

「言葉で基準を伝える」アプローチ

これに対しVLM（視覚言語モデル）は、画像と言語を結びつけて理解する性質から、「良品とはこういう状態」「こういう見え方はNG」といった検査基準を、少数の例示と言葉による説明である程度伝えられる可能性があります。大量のラベル付き不良画像を前提としない点で、データが集まらない現場との相性が良い側面があります。詳細はVLMと深層学習の違いで整理していますが、要は「サンプル数で殴る」のではなく「基準を伝える」発想への転換と捉えると分かりやすいと考えます。

万能ではない、という前提

一方で、VLMにも限界はあります。微細な寸法のズレや、人間でも判断が割れる微妙な境界の不良では、必ずしも安定した判定が出るとは限りません。処理速度や推論コスト、判断根拠の説明性といった運用面の課題もあります。どの不良を、どの精度で、どの速度で見たいのかという要件次第で、VLM・従来の深層学習・ルールベースの画像処理を組み合わせるのが現実的です。Nsightでは元キーエンス画像処理事業部の現場知見をベースに、対象物・ライティング・カメラ・エッジ（Jetson）まで含めて、どの仕組みが向くかを現物起点で見極める進め方を取っています。

― 05 / 運用

データは「集めてから始める」のではなく「回しながら育てる」

不良サンプル不足を完全に解消してからスタートしようとすると、いつまでも始まりません。むしろ発想を逆にして、不完全なデータのまま小さく稼働させ、運用しながらデータを育てていく考え方が有効だと考えられます。実ラインに置けば、これまで撮れなかった本物の不良が少しずつ蓄積され、その都度モデルや基準を更新していけるからです。

判断に迷ったものを資産にする

運用初期に重要なのは、システムが「自信を持って判定できなかった画像」を捨てずに記録する仕組みです。グレーゾーンの画像こそ、検査基準の曖昧さや新種の不良を映し出す貴重なデータであり、これを人が確認して正解を与えていくことで、検査の精度と基準の解像度が同時に上がっていきます。良い工場ほど不良が出ない以上、出てきた少数の本物を最大限に資産化する運用設計が効いてくると考えます。

このとき、生成データや合成データは「育てる過程のブースター」として機能します。実不良が貯まるまでの初期空白を擬似データで埋め、本物が集まってきたら徐々に実データの比重を高める——という移行を前提に置くと、データ収集の長い待ち時間を実質的に短縮できる可能性があります。

― 06 / 落とし穴

不良サンプル不足を巡って陥りやすい誤解

「データさえ集めれば解決する」という思い込み：枚数を増やしても、特定の不良に偏っていたり未知の不良が出続けたりすれば本質は解決しません。集める前に「何を良品/NGとするか」の基準合わせのほうが先だと考えられます。
生成・合成データを過信する：擬似データと本物の間にはギャップが残りうるため、生成画像だけで精度を保証するのは危険です。必ず現物・現場の少数実データで検証する前提が必要です。
見かけの正答率に安心する：データ不均衡下では「全部良品」と答えるだけで高い正答率が出ます。見逃し率（不良を良品と判定する割合）など、不均衡を前提にした指標で評価することが重要です。
検査基準の暗黙知を言語化しないまま進める：熟練検査員の頭の中にある「これはOK/NG」の境界が共有されていないと、誰がラベル付けしても基準がぶれます。基準の言語化はAI化の前提であり、ここを飛ばすと後で破綻しやすいです。
照明・カメラ・治具を後回しにする：そもそも不良が画像に写っていなければ、どんな高度なモデルでも検出できません。撮像条件の作り込みは、アルゴリズム選定と同等かそれ以上に効く要素になりうると考えます。
一度作って終わりだと考える：製造条件の変化で不良の出方は変わります。モデルと基準を更新し続ける運用体制まで含めて設計しないと、時間とともに性能が劣化していく可能性があります。

― 07 / ロードマップ

不良が集まらない前提で、どう進めるか

最後に、現実的な進め方を順序立てて整理します。出発点は「不良画像を大量に集めること」ではなく、「いま手元にある現物と現場で、何が良品で何がNGなのかを客観的に把握すること」です。ここが曖昧なままだと、どんな手法を選んでも基準がぶれます。

小さく始めて、回しながら育てる

まずは限定した対象・限定した不良種類で小さく検証（PoC的な確認）を行い、撮像条件を作り込みながら、少数の良品と入手可能な少数不良、必要に応じて生成・合成データで初期の仕組みを立ち上げます。次に実ラインで稼働させながらグレーゾーン画像を蓄積し、本物の不良が増えるにつれてモデルと基準を更新していく——この「育てる」サイクルを前提に置くのが、不良が集まらない現場における現実的なロードマップだと考えます。

どの不良を、どの精度・速度で見たいのか。撮像条件はどこまで作り込めるのか。VLM・深層学習・ルールベースのどれを、どう組み合わせるのか。これらは机上では決めきれず、現物を見て検証して初めて筋道が立つ領域です。完璧なデータセットを待つのではなく、不完全な前提から一歩を踏み出す設計こそが、このジレンマへの最も現実的な答えになりうると考えます。

― FAQ

よくある質問

なぜ良い工場ほど不良サンプルが集まらないのですか？

工程管理や改善活動が行き届いた工場ほど不良発生率が低く抑えられるため、学習に使えるNG画像が物理的に貯まりにくい構造があります。品質を高める努力の裏返しともいえる現象で、現場の怠慢ではありません。集まらないことを前提に検査自動化を設計する発想が現実的だと考えられます。

不良画像が数枚しかなくてもAI外観検査は始められますか？

進め方次第で検討の余地はあると考えられます。生成・合成データで初期を補う方法や、大量の不良画像を前提としにくいVLMの活用、良品基準から「いつもと違う」を見る発想などが選択肢になりえます。いずれも現物・現場での検証が前提であり、まず小さく回しながらデータを育てる設計が有効だと考えます。

合成データや生成したNG画像だけで学習しても大丈夫ですか？

生成・合成データと実際の不良の見え方の間にはギャップが残りうるため、それだけで精度を保証するのは慎重に考えるべきです。初期の空白を埋める橋渡しとして使い、本物の少数良品・不良で補正・検証しながら、実データの比重を徐々に高めていく運用が堅実だと考えられます。

データ不均衡だと精度が高くても見逃しが多いと聞きました。なぜですか？

良品が極端に多いデータで素朴に学習すると「すべて良品と答える」だけで見かけの正答率が高くなり、肝心の不良を見逃すモデルになりうるためです。評価では全体の正答率だけでなく、不良を良品と誤る見逃し率など、不均衡を前提にした指標で確認することが重要だと考えます。

VLMを使えば不良サンプルは不要になりますか？

不要になるとは言い切れません。VLMは少数の例示と言葉による基準提示で判断しうる性質があり、大量の不良画像への依存を下げられる可能性はありますが、微細な不良や境界事例では安定しないこともあります。対象や要件に応じて従来手法と組み合わせ、現物で検証することが前提になると考えます。

不良サンプルが集まらない前提で、検査自動化を考えてみませんか

「不良画像がほとんどない」という状態こそ、多くの現場の出発点です。完璧なデータを待つのではなく、まず手元の現物と現場の良品/NG基準を客観的に把握するところから始められます。元キーエンス画像処理事業部の現場知見をベースに、撮像条件から手法選定まで一緒に整理します。

少数不良の検査設計について相談する

なぜ不良サンプルは集まらないのか——良品しか作れない現場のジレンマ