VLM Visual Inspection & OCR

VLMで実現する、
次世代の外観検査・OCR

文字認識はVLMが直接処理し、外観検査・カウントはCNNが本番判定。その学習をVLMが裏方で支える。
タスクごとに最適な技術を割り当てるハイブリッド構成で、多品種・低不良率ラインを「現場で動く形」に仕上げます。光学系の設計からPLC連携まで、ソフトとハードを一貫対応します。

01 / WHY Design Philosophy

VLMの使い分けで、
外観検査の常識を変える

VLM(Vision Language Model)は万能ではありません。「どのタスクで主役にし、どのタスクで裏方に回すか」を設計できないと、現場で動かない高コストなシステムになります。Nsightはこの使い分けを明確にした上で、ハードウェア一体設計まで一貫対応します。

Nsightの設計思想:2つの使い分け

Axis 01 — Direct Inference

文字認識・OCR系

VLMが本番推論を直接担当

ロット番号・賞味期限・品番・刻印などの読取と、マスターデータとの照合を、VLMが学習なしで実行します。従来OCRが弱かった「フォント違い」「位置ズレ」「多言語」「微細刻印」「印字かすれ」も、VLMが文脈ごと意味的に理解するため、辞書登録・テンプレート作成は不要です。

VLM 直接推論 学習データ不要 多言語対応

Axis 02 — Hybrid Inference

外観検査・カウント系

CNNが本番、VLMは学習補助

傷・汚れ・欠け・異物混入・数量カウントの本番判定はCNN(深層学習)が担当。ラインスピードに追従するレイテンシが要件のため、推論の重いVLMは本番ループには載せません。その代わり、VLMは学習データの自動生成・オートアノテーション・曖昧ケースの補助判定を担当し、Deep Learning運用の最大の難所「不良サンプル不足」を構造的に解消します。

CNN 本番推論 VLM 学習補助 ラインスピード追従

こんな課題、抱えていませんか

01

品種切り替えのたびに設定変更が必要

ルールベースでは品種ごとにパラメータ調整が発生。多品種ラインでは設定だけで1日が終わる現場も。

02

不良品サンプルが集まらない

Deep Learningには大量の不良品画像が必要。不良率が低い製品では学習データが構造的に不足。

03

OCRが品種・印字状態に弱い

従来OCRは品種ごとに辞書とテンプレートが必要。フォント違い・印字かすれ・微細刻印で誤認識が多発。

04

少量多品種ではROIが合わない

品種ごとにカスタムAIを開発すると初期費用が膨大化。少量生産品では投資回収が見込めない。

02 / OCR Axis 01 — VLM Direct

文字認識・OCRは
VLMが直接処理する

ロット番号・品番・刻印・賞味期限といった「読み取って正誤を判定する」タスクは、NsightではVLMが本番推論を直接担当します。文字位置・書体・レイアウトが品種ごとに異なっても、辞書登録もテンプレート作成も不要。VLMがラベル全体を「文字+デザイン+文脈」として意味的に理解し、マスターデータと照合します。

仕組み:意味的照合とは何か

従来OCRは1文字ずつ画像を切り出してテンプレート照合する仕組みでした。これに対しVLMは、ラベル・刻印・印字エリア全体を画像と言語の両方で理解します。「O(オー)」と「0(ゼロ)」、「I(アイ)」と「1(イチ)」を字形だけで判別するのではなく、「この位置にこの文字列があり得るか」という制約を内部で自動適用します。これにより、印字品質が落ちた現場でも文字単位のOCR精度を超える総合判定が可能になります。

技術的にはViT/CLIPベースの画像エンコーダ、大規模言語モデル、マルチモーダル結合層の3要素で構成されます。代表的なモデルとしてGPT-4V(OpenAI)、Gemini(Google)、Claude(Anthropic)のビジョン機能などがあり、Nsightではこれらを製造現場で安定稼働するパイプラインとして実装しています。

本番推論をVLMで回せる理由

観点 従来OCR(テンプレート/辞書型) VLM 直接推論
新品種追加 テンプレート作成・辞書登録要 マスター更新のみで即対応
フォント違い・位置ズレ× 誤認識多発 文脈で吸収
微細刻印・エンボス 照明設計に大きく依存 照明設計+VLMで対応
多言語対応 言語ごとに辞書要 多言語そのまま対応
辞書・テンプレート保守× SKU増で肥大化 不要

典型用途

製造ロット刻印照合、賞味期限・製造日付の検証、化粧品・医薬品ラベルの印字検証、物流ラベルOCR×WMS連携、刻印品番のPLCマスター照合、多品種パッケージの正誤判定。

03 / INSPECTION Axis 02 — CNN + VLM Learning Aid

外観検査・カウントは
CNNが本番、学習をVLMが補助

傷・汚れ・欠け・異物混入・数量カウントの本番判定は、ラインスピードに追従させる必要があります。NsightはこのタスクをCNN(深層学習)で実装し、VLMは推論ループから外して学習データ整備の裏方に回します。これにより、Deep Learning運用の最大の難所「不良サンプル不足」を構造的に解消しながら、本番処理速度を犠牲にしません。

VLMが裏方で担う3つの役割

01

NG画像の自動生成

良品サンプルからVLMで不良品画像を合成。不良率が極端に低い製品でも、初期段階から学習データを揃えられます。実機で不良品が出るまで運用開始を待つ必要がありません。

02

オートアノテーション

検査画像のラベル付け(欠陥箇所のマーキング、種別分類)をVLMが自動実行。アノテーション工数を最大90%削減します(対象画像の特性に依存)。

03

曖昧ケースの補助判定

CNNが判定に迷うグレーゾーンの画像を、VLMが文脈情報を加えて再評価。誤判定を抑制し、現場の手戻りを減らします。

なぜ本番推論をCNNに任せるのか

VLMは文脈理解力に優れますが、推論レイテンシが大きいため、ライン検査の本番ループには適しません。一方CNNは、十分な学習データさえあればVLMより遥かに高速・安定に動きます。Nsightは「CNNの速さ」と「VLMの学習データを作り出す柔軟性」を組み合わせることで、ラインスピードと精度の両立を実現します。

結果として、品種追加時の立ち上げ工数が大幅に短縮されます。VLMで学習データを補完しながらCNNを育てる運用フローを採用することで、不良サンプルが集まるまで何ヶ月も待つ必要がなくなります。

典型用途

傷・打痕・バリ検出、汚れ・異物混入検出、欠け・割れ検出、メッシュ・穴あき部品の欠陥検出、表面シワ・凹凸検出、製品の数量カウント、自動車部品・電子デバイス・食品・医薬品の全数検査。

04 / ARCH Architecture

2軸を統合する
ハイブリッド検査パイプライン

OCRはVLM直接推論、外観検査はCNN本番+VLM学習補助、寸法・位置・色などの基礎処理はルールベース──この3層を1本のパイプラインに統合し、PLC/MES/ERPへ判定結果を出力します。設計可能性と説明可能性を担保しながら、ラインスピードに追従します。

Hardware

カメラ・照明・搬送・Jetson/光学系一体設計

Router

タスク判定/OCR・検査・寸法の振り分け

Path A · OCR

VLM 直接推論。学習なしでマスター照合。ロット/品番/賞味期限。

Path B · Inspection

CNN 本番 + VLM 学習補助。傷・汚れ・欠け・異物・カウント。

Output

OK / NG → PLC / MES / ERP
Path A — OCR

VLM 直接推論

学習なしでマスター照合。ロット番号・品番・賞味期限・刻印など。SKUが増えてもマスター更新のみで対応。

Path B — Inspection

CNN 本番 + VLM 学習補助

傷・汚れ・欠け・異物混入・カウントを本番処理。VLMはNG画像生成とオートアノテーションで裏方に。

Path C — Rule-based

寸法・位置・色

エッジ検出・面積・パターンサーチを高速処理。数ms〜数十msで判定が完結する基礎処理層。

FIG — タスクの種類に応じてVLM/CNN/ルールベースの3経路に振り分け、最終判定を統合してPLC・MES・ERPへ出力するパイプライン構成。

ルールベースとAI/VLMの得意領域

領域 ルールベース画像処理 CNN/VLM
寸法計測(μm精度) 高速・安定 精度にバラつき
明確な欠陥の高速検出 数ms〜数十ms 数十ms〜数百ms
多品種・微妙な判定 閾値設定が困難 学習で柔軟対応
未知の欠陥× 事前定義要 異常検知が可能
文字認識・照合 辞書登録要 VLMが学習なし対応

05 / SCOPE Industries & Cases

対応業界と
検査対象例

自動車部品・食品・医薬品・電子デバイス・鉄鋼・化粧品・データセンター関連まで、業界横断で導入実績があります。検査対象が異なっても、設計思想は同じ:「OCRはVLM直接、外観検査はCNN本番+VLM学習補助」。

代表的な検査対象

STEEL — 鉄鋼・金属加工

板金・切削加工品・溶接部の外観・寸法・刻印を1台に統合。高温・粉塵環境にも対応した光学設計。

MESH — メッシュ・穴あき部品

穴の欠け・閉塞・異物付着をCNNで全数検出。NG箇所の座標と信頼度を出力し即時アラート。

SURFACE — 表面欠陥

微細な凹凸欠陥(wrinkle)をCNNで検出。VLMによるNG画像生成で学習データ不足を解消。

OCR — 刻印・印字照合

製品番号・材質・サイズ・ロット番号をVLMで読取り、PLCマスターと自動照合。誤出荷を防止。

LOGISTICS — 物流ラベル

液体レンズ×ラインカメラ×VLMで段ボール高さ違いに即時対応。WMS基幹システムと連携。

FOOD — 食品・医薬品

異物混入・包装不良・印字検査・ラベル照合。衛生管理基準への対応を含む。

主な対応業界

自動車部品

プレス・ダイカスト・樹脂成形品。打痕・バリ・キズ・欠けの検出。

食品・医薬品

異物混入、包装不良、印字検査、ラベル照合。衛生管理基準への対応。

電子デバイス

基板実装、コネクタ、LED、半導体パッケージ。高精度・高速の全数検査。

データセンター関連

HDD部品、光通信部品、液冷設備、電源設備。増産フェーズの検査ライン構築。

鉄鋼・金属加工

板金、切削加工品、溶接部の外観検査。メッキ・塗装のムラ検出。刻印OCR照合。

化粧品・日用品

容器の外観、ラベル貼り位置、キャップ締め、液面レベル検査。多品種ラインの印字検証。

07 / HOW Engagement Process

小さく始めて、
数字で広げる

一度にすべてをAI化する必要はありません。サンプル画像での無料評価から始めて、PoC、本実装、横展開へと段階的に進める設計です。各ステップで効果を数字で確認しながら拡大します。

01
1 DAY

現場見学+ヒアリング

ラインを実際に拝見し、品種数・動線・照明・既存設備を把握。カメラ候補位置を一緒に確認します。

02
1-2 WEEKS

プラン設計+無料診断

サンプル画像での無料診断、検査方式・KPI・設計案をまとめたPoC設計書を作成します。

03
1-3 MONTHS

PoC実施

実機で検証し、ログと映像を蓄積。月次で結果を共有し、精度改善ポイントを洗い出します。

04
SCALABLE

本番展開・横展開

PoCで効果が確認できたパターンを、本番運用や他ライン・他拠点へ段階的に広げます。

数字で見るNsightの効果

2週
PoC開始までの最短期間
80%
物流事例の作業時間削減
1/10
学習データ収集工数の目安
90%
アノテーション工数の最大削減

※ 上記は標準的な導入実績・ベンチマーク値です。実際の精度・効果は検査対象や運用条件により変動します。

08 / FAQ Frequently Asked

VLMと外観検査・OCRに関する
よくある質問

VLMはラインのリアルタイム推論で使えますか?
タスクによります。OCR(文字認識・印字照合)はVLMで本番推論を直接行う構成を採用しています。一方、傷・汚れ・欠けなどの外観検査やカウントは、ラインスピードに追従するためCNNで本番処理し、VLMは推論ループから外して学習データ整備(NG画像生成・オートアノテーション・曖昧ケースの補助)に回します。タスクごとに最適な配置を選ぶのがNsightの設計思想です。
従来OCRと比べて、VLMはどこが優れていますか?
最大の違いは「辞書・テンプレートが不要」な点です。従来OCRは品種ごとに辞書とテンプレートを作り込む必要があり、SKUが増えるほど保守負荷が増大します。VLMはラベル全体を画像と言語の両方で理解するため、フォント違い・位置ズレ・多言語・微細刻印・印字かすれにも文脈で対応します。マスター更新だけで新品種に対応できます。
Deep Learning(CNN)とVLMはどう違いますか?
推論の役割が異なります。CNNは「学習済みのパターンを高速・安定に判定する」のが得意で、Nsightでは外観検査・カウントの本番推論を担当します。VLMは「文脈を理解し言語で説明できる」のが得意で、Nsightではデータ整備の自動化と、OCRのような言語的タスクの本番推論を担当します。両者は競合ではなく補完関係です。
VLMだけで外観検査は完結しますか?
外観検査の本番判定だけを見れば、VLM単独では推奨しません。推論レイテンシ・寸法測定・既知欠陥の安定判定でルールベースやCNNに劣る場面があるためです。Nsightは3技術(ルールベース/CNN/VLM)を組み合わせたハイブリッド構成を標準としています。
不良品サンプルが少ない製品でも導入できますか?
むしろVLMの強みが発揮される領域です。良品画像からVLMでNG画像を生成し、CNNの学習データを補完できます。実機で不良品が出るまで何ヶ月も待つ必要がなくなり、初期段階から検査ラインの立ち上げが可能になります。
導入までどれくらいかかりますか?
サンプル画像をいただいてからPoC開始までは最短2週間です。PoC期間は対象により1〜3ヶ月。各ステップで効果を数字で確認しながら、本番展開・横展開へと段階的に進めます。
ハードウェアもまとめてお願いできますか?
可能です。カメラ・照明・装置筐体・搬送・エッジAI機材・PLC連携まで一貫対応します。元キーエンス画像処理事業部にて開発エンジニアとして従事していたメンバーが光学系を設計し、AI検査が現場で頓挫する原因(カメラ選定ミス・照明不適合)を構造的に防ぎます。

関連ソリューション

関連ブログ記事

NEXT STEP Start With A Sample

サンプル画像をお送りいただければ、
最適な検査方式を無料評価します

検査対象のサンプル画像をいただければ、想定される検査方式(VLM直接/CNN+VLM学習補助/ルールベースの配分)と達成可能な想定精度、必要なハードウェア構成、概算見積もりとROI試算を無料でレポートします。1〜2週間でお戻しします。