検査AIの説明可能性｜「なぜ不良と判定したか」を示せるか

AI外観検査が現場に定着しない一因は、判定がブラックボックスで「なぜ不良なのか」を説明できないことだと考えられます。根拠が見えないと、現場は過検出を疑い、見逃しを恐れ、最終的にAIの判定を信用しなくなる構造があります。説明可能性は精度と並ぶ実運用上の要件だと捉えています。

判定根拠の提示には、注目領域(どこを見て判断したか)の可視化と、判定理由のテキスト化という二つの方向があります。前者は画像上で根拠箇所を示し、後者はVLM(視覚言語モデル)が自然言語で「割れが下端にある」等を説明しうる観点です。どちらも万能ではなく、現物での検証が前提だと考えます。

説明可能性は、AIに判定を委ねきるためではなく、人とAIが役割を分担する協働判定の土台になりうると考えます。AIが根拠付きで一次判定し、グレーゾーンは人が最終確認する設計です。元キーエンス画像処理事業部出身の監修者の知見をふまえ、現場ごとに現物で確かめる前提で組み立てることをおすすめします。

― 01 / 背景と課題

なぜ「精度は高いのに現場で使われない」検査AIが生まれるのか

AI外観検査の導入で、評価検証では良好な精度が出たのに、現場に置いた途端に使われなくなる——こうした事例は珍しくないと考えられます。原因は精度そのものよりも、判定の「根拠が見えない」ことにある場合が多いと、私たちは捉えています。

従来のルールベース画像処理であれば、「面積がしきい値を超えた」「エッジが規定本数に達した」といった形で、判定の理由を数値として追えました。一方、深層学習ベースの検査AIは、入力画像から直接OK/NGを出力する構造になりがちで、なぜその判定に至ったかが内部のパラメータに埋もれてしまいます。結果として、現場の検査員や品質保証の担当者から見ると「機械が黒い箱の中で決めている」状態になります。

根拠が見えないと、現場は判定を信じられない

不良と判定された製品を前に、現場が最初に問うのは「どこが、どう悪いのか」です。ここに答えられないと、過検出(良品を不良と判定)を疑う声と、見逃し(不良を良品と判定)を恐れる声の両方が生まれます。前者はラインを止め歩留まりを下げ、後者は流出リスクとして品質保証部門を不安にさせます。どちらも、判定の理由が示せないことに端を発していると考えられます。

「信用の不在」は運用コストとして跳ね返る

判定根拠が示せない検査AIは、結局すべての判定を人が再確認する運用になりがちです。これでは省力化の効果が薄れ、AIを入れた意味が問われます。説明可能性は、倫理や納得感といった抽象的な話にとどまらず、再確認の手間をどこまで減らせるかという、きわめて実務的なコスト構造に直結する論点だと私たちは考えています。外観検査をAIに置き換える際の前提整理は、目視検査をAIに置き換える前に整理すべき論点でも触れています。

― 02 / アプローチ

判定根拠の提示には「どこを見たか」と「なぜそう判断したか」がある

検査AIの説明可能性を、私たちは大きく二つの方向に整理しています。一つは「どこを見て判断したか」を画像上で示す注目領域の可視化、もう一つは「なぜそう判断したか」を言葉で示す判定理由のテキスト化です。両者は補い合う関係にあり、どちらか一方だけでは現場の納得を得にくい場合があると考えます。

注目領域の可視化——画像のどこが根拠か

注目領域の可視化は、AIが判定の際に強く反応した画像上の箇所をヒートマップ等で重ね合わせて示す考え方です。ヒートマップ系の手法では、不良と判定した根拠が画像上のどこにあるかを、おおまかに視覚化できる可能性があります。現場にとっては「ここが反応している」という手掛かりになり、目視での再確認の起点になりえます。

ただし、注目領域はあくまで「反応の強い場所」を示すものであり、それが本当に欠陥なのか、照明ムラや背景に反応しているだけなのかは、別途見極めが必要です。可視化されたからといって判定が正しいとは限らない点には、注意が要ると考えます。

判定理由のテキスト化——言葉で示せるか

もう一つの方向が、判定理由を自然言語で記述する試みです。「下端に割れがある」「印字がかすれている」といった、人が読んで理解できる言葉で理由を提示できれば、現場の納得は得やすくなると期待されます。この領域でVLM(視覚言語モデル)が新しい選択肢になりうると、私たちは注目しています。VLMを用いた現場での読み取りの考え方は、エッジVLM-OCRでも整理しています。

二つを組み合わせる意味

注目領域は「どこ」を、テキストは「なぜ」を担います。画像上の根拠箇所と、それを言葉にした説明がそろってはじめて、現場は判定を検討の俎上に載せられると考えられます。一方で、いずれの手法も現物・現場の条件に強く依存します。提示された根拠が妥当かどうかは、サンプルを用いた検証を通じて確かめる前提が欠かせないと私たちは捉えています。

― 03 / 設計

VLMは「なぜ不良か」を自然言語で説明しうるか

VLM(視覚言語モデル)は、画像とテキストを同じ枠組みで扱えるモデルです。画像を入力として受け取り、その内容について自然言語で記述したり、問いに答えたりできる点が、従来のOK/NGだけを返す検査モデルとの大きな違いです。この特性が、検査AIの説明可能性に新しい角度をもたらしうると私たちは考えています。

「不良の種類」と「位置」を言葉で添えられる可能性

VLMを検査に応用する場合、単にOK/NGを返すだけでなく、「錠剤の縁に欠けがある」「ラベルの印字位置がずれている」といった、不良の種類や位置を言葉で添えられる可能性があります。これは、現場が判定を再確認する際の手掛かりとして有用だと考えられます。理由が言語化されていれば、検査員は画像のどこを見ればよいかを素早く絞り込めます。

過信は禁物——言語化が正しさを保証するわけではない

一方で、VLMが流暢な説明文を生成できることと、その判定が正しいことは別問題です。もっともらしい理由を述べながら誤判定している、という状況も起こりえます。説明文の存在は納得感を高めますが、それ自体が精度の保証にはならない——この点を取り違えると、かえって誤った判定を信じ込ませる危険があると、私たちは考えています。だからこそ、提示された理由を現場の事実と突き合わせて検証する工程が重要になります。

「気づきにくい不良」への目配り

言語で表現しやすい欠陥(割れ、印字かすれ、明確な異物)がある一方、わずかな色ムラや、定義しづらい微妙な質感の差は、言葉にしにくい場合があります。VLMを過度に万能視せず、得意な不良と苦手な不良を切り分けて運用設計することが現実的だと考えます。AI検査の限界と向き合う観点は、目視検査の限界とAIによる解決アプローチでも整理しています。

― 04 / 運用

人とAIの「協働判定」をどう設計するか

説明可能性を備えた検査AIは、すべてを自動で判定しきるためというより、人とAIが役割を分担する協働判定の土台になりうると、私たちは捉えています。AIに判定を「委ねきる」発想ではなく、AIと人がそれぞれの強みを出し合う設計です。

一次判定はAI、グレーゾーンは人

現実的な設計の一例として、明確な良品・明確な不良はAIが根拠付きで一次判定し、判定が割れやすいグレーゾーンだけを人が最終確認する、という分担が考えられます。AIが「自信の度合い」と「根拠」を併せて提示できれば、人はグレーゾーンに集中でき、検査全体の負荷を下げられる可能性があります。確信度の低い判定を人に回す仕組みは、流出リスクを抑えるうえでも有効だと考えられます。

説明が「現場の合意形成」を助ける

判定理由が言語と画像で示されることは、現場・品質保証・製造の間の合意形成も助けると考えられます。「なぜこれを不良としたか」が共有されれば、基準のすり合わせや、判定が割れたときの議論がしやすくなります。説明可能性は、検査の標準化や属人化の解消にも間接的に寄与しうる、という見方を私たちは持っています。工程全体の可視化という観点は工程の可視化とも接続します。

判定根拠を「記録」として残す

判定理由や注目領域を、判定結果と一緒に記録として残せると、後からの振り返りやトレーサビリティに役立つと考えられます。なぜその判定だったかを画像と言葉で遡れることは、クレーム対応や基準見直しの際の根拠資料にもなりえます。記録の自動保存は、説明可能性がもたらす実務的な副次効果の一つだと捉えています。

― 05 / 落とし穴

説明可能性をめぐって陥りやすい落とし穴

説明可能性は魅力的な概念ですが、扱い方を誤ると逆効果になりかねません。導入を検討する段階で意識しておきたい落とし穴を、いくつか挙げます。

説明文を「正しさの証明」と取り違える——もっともらしい理由が付いていても、判定自体が誤っている可能性は残ります。説明は納得の手掛かりであって、精度の保証ではないと割り切る必要があります。
注目領域の過信——ヒートマップが示すのは「反応の強い場所」であり、それが欠陥そのものとは限りません。照明ムラや背景に反応している場合もあり、可視化結果は人の確認とセットで扱うべきだと考えます。
根拠提示が現場の負荷を増やす——すべての判定に詳細な説明を出すと、かえって確認すべき情報が増え、現場が消化しきれない場合があります。どの判定にどこまで根拠を出すかは、運用設計の一部として調整が要ります。
言語化しにくい不良を無理に言葉にする——微妙な色差や質感差は言葉になりにくく、無理に説明させると不正確な記述を生みます。得意・不得意の切り分けを前提に運用することが現実的です。
説明可能性だけを目的化する——根拠を出すこと自体が目的になり、肝心の検査精度や歩留まりへの寄与が後回しになっては本末転倒です。あくまで現場で運用が定着し、品質に寄与することが目的だと捉えています。

これらはいずれも、机上の議論だけでは見極めにくく、現物・現場の条件に依存します。自社の不良の種類や撮像環境で、どの説明手法がどこまで機能するかは、サンプルでの検証を通じて確かめる前提が欠かせないと考えます。

― 06 / ロードマップ

説明できる検査AIへ——どう一歩を踏み出すか

最後に、説明可能性を備えた検査AIの導入を、どのような順序で考えるとよいかを整理します。私たちは、いきなり全工程の完全自動化を目指すのではなく、小さく始めて現場で確かめる進め方を基本に据えています。

段階的に進める考え方

まずは対象とする不良の種類を絞り、AIが根拠付きで一次判定し人が最終確認する協働判定から始めるのが現実的だと考えます。注目領域の可視化やVLMによる理由提示が、自社の不良でどこまで機能するかを小さく検証し、有効性を確かめながら対象範囲を広げていく——この積み上げが、現場に定着する運用につながると捉えています。導入の入口の考え方は目視検査をAIに置き換える前の論点整理もあわせてご参照ください。

現物・現場での検証を前提に

本稿で述べた説明手法は、いずれも自社の現物・撮像環境に強く依存します。どの不良なら根拠を示せるか、注目領域やテキストが現場の納得につながるかは、実際のサンプルとラインの条件で確かめてはじめて分かることが多いと考えます。一般論としての説明可能性と、自社の現場で機能する説明可能性は、別物として捉える姿勢が大切だと私たちは考えています。

Nsightとしての立ち位置

Nsightには、元キーエンス画像処理事業部出身の監修者が在籍し、照明・撮像・判定設計の現場知見をふまえて検討を支援しています。説明可能性についても、流行の概念として語るのではなく、貴社の不良と現場条件のもとで「本当に判定根拠を示せるか」を、現物・現場での検証を通じて一緒に確かめていきたいと考えています。机上の精度ではなく、現場で信用され運用が定着する検査AIを、段階的に組み立てていく——その伴走を私たちの役割と捉えています。

― 08 / FAQ

よくある質問

AI検査の「説明可能性」とは具体的に何を指しますか？

判定がなぜその結論に至ったかを、人が理解できる形で示せることを指します。本稿では、画像上のどこを見て判断したかを示す注目領域の可視化と、なぜそう判断したかを言葉で示す判定理由のテキスト化の二つの方向で整理しています。いずれも納得の手掛かりであり、精度そのものの保証ではない点には注意が要ると考えています。

VLMを使えば判定理由を自然言語で説明できますか？

VLM(視覚言語モデル)は画像について自然言語で記述できるため、「下端に割れがある」等の理由を添えられる可能性があります。ただし流暢な説明と判定の正しさは別問題で、もっともらしい説明をしながら誤判定することもありえます。説明の存在を精度の保証と取り違えず、現物での検証を前提にすることが大切だと考えます。

注目領域(ヒートマップ)の可視化があれば判定は信頼できますか？

ヒートマップは「反応の強い場所」を示すもので、それが必ずしも欠陥そのものとは限りません。照明ムラや背景に反応している場合もあります。可視化結果は人の確認とセットで扱うべきで、可視化されたから判定が正しい、と直結させない姿勢が必要だと考えています。

人とAIの協働判定とは、どのような運用ですか？

明確な良品・不良はAIが根拠付きで一次判定し、判定が割れやすいグレーゾーンを人が最終確認する分担が一例です。AIが確信度と根拠を併せて提示できれば、人はグレーゾーンに集中でき、検査全体の負荷を下げられる可能性があります。AIに委ねきるのではなく、役割を分け合う設計として捉えています。

自社で説明可能な検査AIが機能するか、どう確かめればよいですか？

説明手法はいずれも自社の不良の種類や撮像環境に依存するため、実際のサンプルとラインの条件での検証が前提だと考えます。対象とする不良を絞り、協働判定の形で小さく始め、注目領域やテキスト提示が現場の納得につながるかを確かめながら範囲を広げる進め方をおすすめしています。現物・現場での検証を一緒に行う支援も可能です。

検査AIの説明可能性——「なぜ不良と判定したか」を示せるか