AI外観検査がブラックボックスだと現場は判定を信用できず運用が定着しません。注目領域の可視化やVLMによる判定理由のテキスト化、人とAIの協働判定の考え方を、Nsightの視点で整理します。
AI外観検査の導入で、評価検証では良好な精度が出たのに、現場に置いた途端に使われなくなる——こうした事例は珍しくないと考えられます。原因は精度そのものよりも、判定の「根拠が見えない」ことにある場合が多いと、私たちは捉えています。
従来のルールベース画像処理であれば、「面積がしきい値を超えた」「エッジが規定本数に達した」といった形で、判定の理由を数値として追えました。一方、深層学習ベースの検査AIは、入力画像から直接OK/NGを出力する構造になりがちで、なぜその判定に至ったかが内部のパラメータに埋もれてしまいます。結果として、現場の検査員や品質保証の担当者から見ると「機械が黒い箱の中で決めている」状態になります。
不良と判定された製品を前に、現場が最初に問うのは「どこが、どう悪いのか」です。ここに答えられないと、過検出(良品を不良と判定)を疑う声と、見逃し(不良を良品と判定)を恐れる声の両方が生まれます。前者はラインを止め歩留まりを下げ、後者は流出リスクとして品質保証部門を不安にさせます。どちらも、判定の理由が示せないことに端を発していると考えられます。
判定根拠が示せない検査AIは、結局すべての判定を人が再確認する運用になりがちです。これでは省力化の効果が薄れ、AIを入れた意味が問われます。説明可能性は、倫理や納得感といった抽象的な話にとどまらず、再確認の手間をどこまで減らせるかという、きわめて実務的なコスト構造に直結する論点だと私たちは考えています。外観検査をAIに置き換える際の前提整理は、目視検査をAIに置き換える前に整理すべき論点でも触れています。
検査AIの説明可能性を、私たちは大きく二つの方向に整理しています。一つは「どこを見て判断したか」を画像上で示す注目領域の可視化、もう一つは「なぜそう判断したか」を言葉で示す判定理由のテキスト化です。両者は補い合う関係にあり、どちらか一方だけでは現場の納得を得にくい場合があると考えます。
注目領域の可視化は、AIが判定の際に強く反応した画像上の箇所をヒートマップ等で重ね合わせて示す考え方です。ヒートマップ系の手法では、不良と判定した根拠が画像上のどこにあるかを、おおまかに視覚化できる可能性があります。現場にとっては「ここが反応している」という手掛かりになり、目視での再確認の起点になりえます。
ただし、注目領域はあくまで「反応の強い場所」を示すものであり、それが本当に欠陥なのか、照明ムラや背景に反応しているだけなのかは、別途見極めが必要です。可視化されたからといって判定が正しいとは限らない点には、注意が要ると考えます。
もう一つの方向が、判定理由を自然言語で記述する試みです。「下端に割れがある」「印字がかすれている」といった、人が読んで理解できる言葉で理由を提示できれば、現場の納得は得やすくなると期待されます。この領域でVLM(視覚言語モデル)が新しい選択肢になりうると、私たちは注目しています。VLMを用いた現場での読み取りの考え方は、エッジVLM-OCRでも整理しています。
注目領域は「どこ」を、テキストは「なぜ」を担います。画像上の根拠箇所と、それを言葉にした説明がそろってはじめて、現場は判定を検討の俎上に載せられると考えられます。一方で、いずれの手法も現物・現場の条件に強く依存します。提示された根拠が妥当かどうかは、サンプルを用いた検証を通じて確かめる前提が欠かせないと私たちは捉えています。
VLM(視覚言語モデル)は、画像とテキストを同じ枠組みで扱えるモデルです。画像を入力として受け取り、その内容について自然言語で記述したり、問いに答えたりできる点が、従来のOK/NGだけを返す検査モデルとの大きな違いです。この特性が、検査AIの説明可能性に新しい角度をもたらしうると私たちは考えています。
VLMを検査に応用する場合、単にOK/NGを返すだけでなく、「錠剤の縁に欠けがある」「ラベルの印字位置がずれている」といった、不良の種類や位置を言葉で添えられる可能性があります。これは、現場が判定を再確認する際の手掛かりとして有用だと考えられます。理由が言語化されていれば、検査員は画像のどこを見ればよいかを素早く絞り込めます。
一方で、VLMが流暢な説明文を生成できることと、その判定が正しいことは別問題です。もっともらしい理由を述べながら誤判定している、という状況も起こりえます。説明文の存在は納得感を高めますが、それ自体が精度の保証にはならない——この点を取り違えると、かえって誤った判定を信じ込ませる危険があると、私たちは考えています。だからこそ、提示された理由を現場の事実と突き合わせて検証する工程が重要になります。
言語で表現しやすい欠陥(割れ、印字かすれ、明確な異物)がある一方、わずかな色ムラや、定義しづらい微妙な質感の差は、言葉にしにくい場合があります。VLMを過度に万能視せず、得意な不良と苦手な不良を切り分けて運用設計することが現実的だと考えます。AI検査の限界と向き合う観点は、目視検査の限界とAIによる解決アプローチでも整理しています。
説明可能性を備えた検査AIは、すべてを自動で判定しきるためというより、人とAIが役割を分担する協働判定の土台になりうると、私たちは捉えています。AIに判定を「委ねきる」発想ではなく、AIと人がそれぞれの強みを出し合う設計です。
現実的な設計の一例として、明確な良品・明確な不良はAIが根拠付きで一次判定し、判定が割れやすいグレーゾーンだけを人が最終確認する、という分担が考えられます。AIが「自信の度合い」と「根拠」を併せて提示できれば、人はグレーゾーンに集中でき、検査全体の負荷を下げられる可能性があります。確信度の低い判定を人に回す仕組みは、流出リスクを抑えるうえでも有効だと考えられます。
判定理由が言語と画像で示されることは、現場・品質保証・製造の間の合意形成も助けると考えられます。「なぜこれを不良としたか」が共有されれば、基準のすり合わせや、判定が割れたときの議論がしやすくなります。説明可能性は、検査の標準化や属人化の解消にも間接的に寄与しうる、という見方を私たちは持っています。工程全体の可視化という観点は工程の可視化とも接続します。
判定理由や注目領域を、判定結果と一緒に記録として残せると、後からの振り返りやトレーサビリティに役立つと考えられます。なぜその判定だったかを画像と言葉で遡れることは、クレーム対応や基準見直しの際の根拠資料にもなりえます。記録の自動保存は、説明可能性がもたらす実務的な副次効果の一つだと捉えています。
説明可能性は魅力的な概念ですが、扱い方を誤ると逆効果になりかねません。導入を検討する段階で意識しておきたい落とし穴を、いくつか挙げます。
これらはいずれも、机上の議論だけでは見極めにくく、現物・現場の条件に依存します。自社の不良の種類や撮像環境で、どの説明手法がどこまで機能するかは、サンプルでの検証を通じて確かめる前提が欠かせないと考えます。
最後に、説明可能性を備えた検査AIの導入を、どのような順序で考えるとよいかを整理します。私たちは、いきなり全工程の完全自動化を目指すのではなく、小さく始めて現場で確かめる進め方を基本に据えています。
まずは対象とする不良の種類を絞り、AIが根拠付きで一次判定し人が最終確認する協働判定から始めるのが現実的だと考えます。注目領域の可視化やVLMによる理由提示が、自社の不良でどこまで機能するかを小さく検証し、有効性を確かめながら対象範囲を広げていく——この積み上げが、現場に定着する運用につながると捉えています。導入の入口の考え方は目視検査をAIに置き換える前の論点整理もあわせてご参照ください。
本稿で述べた説明手法は、いずれも自社の現物・撮像環境に強く依存します。どの不良なら根拠を示せるか、注目領域やテキストが現場の納得につながるかは、実際のサンプルとラインの条件で確かめてはじめて分かることが多いと考えます。一般論としての説明可能性と、自社の現場で機能する説明可能性は、別物として捉える姿勢が大切だと私たちは考えています。
Nsightには、元キーエンス画像処理事業部出身の監修者が在籍し、照明・撮像・判定設計の現場知見をふまえて検討を支援しています。説明可能性についても、流行の概念として語るのではなく、貴社の不良と現場条件のもとで「本当に判定根拠を示せるか」を、現物・現場での検証を通じて一緒に確かめていきたいと考えています。机上の精度ではなく、現場で信用され運用が定着する検査AIを、段階的に組み立てていく——その伴走を私たちの役割と捉えています。
判定がなぜその結論に至ったかを、人が理解できる形で示せることを指します。本稿では、画像上のどこを見て判断したかを示す注目領域の可視化と、なぜそう判断したかを言葉で示す判定理由のテキスト化の二つの方向で整理しています。いずれも納得の手掛かりであり、精度そのものの保証ではない点には注意が要ると考えています。
VLM(視覚言語モデル)は画像について自然言語で記述できるため、「下端に割れがある」等の理由を添えられる可能性があります。ただし流暢な説明と判定の正しさは別問題で、もっともらしい説明をしながら誤判定することもありえます。説明の存在を精度の保証と取り違えず、現物での検証を前提にすることが大切だと考えます。
ヒートマップは「反応の強い場所」を示すもので、それが必ずしも欠陥そのものとは限りません。照明ムラや背景に反応している場合もあります。可視化結果は人の確認とセットで扱うべきで、可視化されたから判定が正しい、と直結させない姿勢が必要だと考えています。
明確な良品・不良はAIが根拠付きで一次判定し、判定が割れやすいグレーゾーンを人が最終確認する分担が一例です。AIが確信度と根拠を併せて提示できれば、人はグレーゾーンに集中でき、検査全体の負荷を下げられる可能性があります。AIに委ねきるのではなく、役割を分け合う設計として捉えています。
説明手法はいずれも自社の不良の種類や撮像環境に依存するため、実際のサンプルとラインの条件での検証が前提だと考えます。対象とする不良を絞り、協働判定の形で小さく始め、注目領域やテキスト提示が現場の納得につながるかを確かめながら範囲を広げる進め方をおすすめしています。現物・現場での検証を一緒に行う支援も可能です。
説明可能性が貴社の不良と現場条件でどこまで機能するかは、サンプルでの検証を通じて見えてきます。元キーエンス画像処理事業部出身の監修者とともに、現物・現場で一緒に確かめます。
PoC・検証について相談する