多品種検査でVLMが効く理由｜仕組みと適用条件を元キーエンス技術者が解説

VLMとは何か（30秒で理解する）

VLM（Vision Language Model）は、画像とテキストを同時に理解するAIモデルです。「この画像にキズはあるか？」と自然言語で質問すると、画像を分析して回答します。

多品種外観検査では、VLMを「検査そのもの」ではなく「検査を支えるバックエンドツール」として活用します。これが最も重要なポイントです。

Nsight現場データ｜豊富な導入実績から

多品種検査におけるVLMの3つの活用法

活用法1：NG画像の自動生成（最も効果が高い）

多品種検査の最大のボトルネックは「品種ごとの不良サンプルが足りない」ことです。VLMは良品画像から不良品画像を自動生成し、学習データ不足を解消します。

Nsight現場データ｜学習データ量の比較

従来方式：品種あたり200〜500枚のNG画像が必要。品種数50で合計10,000〜25,000枚。
VLM活用時：品種あたり実NG画像5〜10枚 + VLM生成100枚。品種数50で実画像250〜500枚。
データ収集コスト：95%削減。

活用法2：オートアノテーション

不良箇所のラベル付け（アノテーション）をVLMが自動で行います。人間は結果をレビューするだけ。

Nsight現場データ｜アノテーション工数

手動：1品種あたり4〜8時間。品種数50で200〜400時間（50〜100万円）。
VLMオートアノテーション：1品種あたり30分（レビュー込み）。品種数50で25時間。
工数削減率：90%。精度：人手の85〜95%（残りは人間がレビュー修正）。

活用法3：ラベル文字認識（VLM-OCR）

VLMが画像内の文字を直接読み取り、マスターデータと照合します。従来のOCRと違い、品種ごとのテンプレート設定が不要です。

賞味期限・製造番号・アレルゲン表示の読み取り
多言語対応（日英中韓）
ラベルの位置ズレ・シワがあっても読み取り可能

VLMの活用方法を相談したい方

無料相談する →

VLMを使うべきケース・使うべきでないケース

ケース	VLM活用	理由
品種数50以上で不良サンプル不足	強く推奨	NG画像生成で学習データ問題を解決
ラベル印字検査（多品種）	強く推奨	品種ごとのOCR設定不要
品種切替時の品種識別	推奨	バーコードなしでも画像から品種判別
タクトタイム100ms以下の高速検査	不向き	VLM推論は500ms以上。ルールベース＋従来AIを使用
単品種の大量生産	不要	品種数1-3なら従来Deep Learningで十分
寸法公差±0.01mm以下	不向き	画像検査ではなく3D計測を推奨

VLMの限界と対策

限界1：推論速度

VLMの推論は500ms〜2秒/枚。Nsightではこの問題をハイブリッド構成で解決しています。VLMはオフライン処理（NG画像生成・アノテーション）に限定し、リアルタイム検査はTensorRTで最適化した従来AIモデルが担います。

限界2：ハルシネーション（誤回答）

VLMは「もっともらしい嘘」を生成することがあります。外観検査では誤判定は許容されません。Nsightではルールベース検査を第一優先とし、AI判定にはconfidence score（確信度）の閾値を設けて、不確実な判定は人間にエスカレーションします。

まとめ

VLMは多品種外観検査を変革する強力なツールですが、万能ではありません。NG画像生成・オートアノテーション・ラベル文字認識の3つの用途に絞って活用し、リアルタイム検査はルールベース＋従来AIに任せる。この使い分けが多品種検査成功の鍵です。

多品種検査のVLM活用、まずは無料相談

無料相談する →

VLMが多品種検査でどう機能するか

VLM（Vision-Language Model）が多品種ラインで効く理由は、「事前学習による汎化能力」と「自然言語による検査基準指示」の2つに集約されます。技術的詳細を体系化します。

VLMの内部構造

Visual Encoder（画像エンコーダ）

画像から特徴ベクトルを抽出。CLIP・SigLIP等の事前学習済みモデルが基盤。

Language Model（言語モデル）

自然言語のクエリを理解し、画像特徴と統合。

Multimodal Fusion（マルチモーダル統合）

画像と言語の特徴を統合し、最終出力（判定・分類）を生成。

多品種検査での活用パターン

パターン①: ゼロショット判定

新品種でも、自然言語で検査基準を指示するだけで判定可能。学習不要。

パターン②: フューショット学習

5〜10枚のサンプルで品種固有の判定を学習。従来比1/100のデータ量。

パターン③: 説明可能な判定

判定根拠を自然言語で出力。「このキズが基準を超えているため不合格」と説明可能。

VLMの主要モデル比較

モデル	特徴	用途
CLIP	軽量・汎用	分類・検索
SigLIP	CLIP改良版	同上
LLaVA	マルチモーダル対話	説明可能判定
GPT-4V	高精度（クラウド）	難ケース処理
Claude	長文対応	詳細マスター解釈

本番運用でのVLMアーキテクチャ

VLM単独では推論コストが高いため、軽量モデルとのハイブリッド構成が標準：

本番判定（90%）：軽量CNN（Jetson推論）
難ケース（10%）：VLMにフォールバック
裏方処理：VLMでオートアノテーション・NG生成

VLM導入の効果指標

指標	VLM導入前	VLM導入後
新品種立ち上げ時間	1〜2週間	数時間
必要学習データ	500枚以上	10〜30枚
切替工数	30〜60分	5〜10分
説明可能性	低	高

よくある質問

多品種検査でVLMはどう使う？

VLMはNG画像生成・オートアノテーション・ラベル文字認識の3つの用途で活用します。検査推論には使わず、バックエンドツールとして学習コストを削減するのが正しい使い方です。

VLMの推論速度はどのくらい？

Jetson AGX Orinで500ms〜2秒/枚。タクトタイム100ms以下の検査には不向きです。リアルタイム検査にはTensorRTで最適化した従来AIモデル（20〜80ms/枚）を使います。

VLMで生成したNG画像の品質は？

Nsightの豊富な導入実績では、VLM生成NG画像で学習したモデルの検出率は、実NG画像のみで学習した場合と比較して95〜98%の水準。実用上十分な品質です。

VLMの導入に追加費用はかかる？

NsightのシステムにはVLM機能が標準搭載されています。追加のライセンス費用はありません。ハードウェアはJetson AGX Orin 64GBが必要です。

よくある質問

VLM学習に必要なデータ量は？

ゼロショット利用なら追加学習不要です。ファインチューニングする場合、数百〜数千枚のラベル付きデータで効果が出ます。

VLM（Vision Language Model）とは何ですか？

画像と自然言語の両方を理解する大規模AIモデルです。ゼロショットでの画像分類・質問応答・照合が可能です。

VLMは本番の検査判定に使えますか？

現時点では、VLMは裏方（NG画像生成・オートアノテーション・学習データ拡張）として活用し、本番判定は軽量モデルが主流です。

監修：嶋野（元キーエンス画像処理部門開発）

キーエンス画像処理部門での実務経験をもとに、製造業の外観検査・画像処理に関する技術監修を行っている。会社概要 →

最終更新日：2026-04-24