EDGE × VLM × OCR SOLUTION

これまで読めなかった文字を、
エッジで動くVLM-OCRが読み切る。

自社で学習・最適化し、現場のエッジ機器上で完結して動くVLM-OCR。キーエンスの2D/3Dラインカメラとのドッキングからスマホまで、用途に合わせた入力構成で——あらゆる画像から文字を読み取ります。手書き伝票・反射するラベル・かすれた刻印まで、意味ごと理解します。

画像1枚から無料診断 → 実際の出力を見る

自社学習基盤現場完結・閉域運用キーエンス 2D/3Dカメラ対応スマホ撮影にも対応

The Gap

なぜ、現場のOCRは止まるのか。

テンプレートと辞書に依存する従来OCRは、「想定どおりの綺麗な文字」でしか動きません。現場の入力はいつも想定外です。

FAIL_01

手書きの崩れ字

人によってクセも筆圧も違う宅配伝票の住所・氏名。文字の形が辞書に一致せず、ルールベースOCRは早々に破綻します。

FAIL_02

反射・かすれ・汚れ

ラミネート梱包の反射、薄れた印字、滲み。CNN-OCRは学習画像から外れた途端、信頼度が崩落します。

FAIL_03

レイアウト・書式違い

ラベルのフォントや項目配置が品種ごとに変わるたび、テンプレート再設定。多品種・多拠点では運用が回りません。

Output examples

読み取り例。

手書きの崩れ字、反射するラベル、書式違い——従来OCRが苦手としてきた現場画像に対する、Nsight VLM-OCRの読み取り例をご紹介します。実際の精度・出力は、対象画像や撮像条件によって変動します。

DEMO_01 · 手書き宅配伝票（鮮明）

// VLM STRUCTURED OUTPUT

postal_code〒102-0093

address東京都千代田区平河町

building_no2-13-1

nameNsight株式会社

崩れ字の「千々田区」を、住所の意味から「千代田区」と判断。郵便番号と住所の整合も確認し、項目ごとに整理して出力します。

DEMO_02 · 手書き伝票（低コントラスト・かすれ）

// VLM STRUCTURED OUTPUT

postal_code〒102-0093

address_line千代田区平河町2-13-1

building読売平河町ビル

紙の地色とほぼ同化したかすれ文字でも、行ごとに役割（住所／建物名）を判別。テンプレートを登録せずビル名まで拾える例です。

DEMO_03 · 電池梱包ラベル（ラミネート反射）

// VLM STRUCTURED OUTPUT

makerサムスンSDI92%

model_noINR21700-00X96%

rating / cap3.600V / 5000mAh94%

mgmt_noQXXX00X0XX0099%

barcodeQXXX00X0XX00XX00099%

ラミネート反射の下でも、項目名と値のペアを正しく対応付け。項目ごとに確からしさも返すため、自動処理と目視確認の振り分けが可能です。

Why our solution

Nsight VLM-OCRが、
現場で読み切る理由。

アルゴリズムだけを売るベンダーとは違う。学習基盤・エッジ・光学ハード・運用までを、産業用画像処理の開発知見で一気通貫に設計します。

PILLAR_01

自社で学習・最適化し、
現場で完結して動く

モデルの学習・最適化を自社で実施し、推論は現場のエッジ機器上で完結。クラウドにもネットにも依存せず、画像を外部に出さずに読み取れます。セキュリティ要件の厳しい製造・物流現場でも、閉域でそのまま導入できます。

PILLAR_02

用途で選べる入力構成。
2D/3Dカメラからスマホまで

高い精度や安定した連続稼働が必要なラインには、キーエンスの2D/3Dラインカメラとのドッキング構成。可搬性や柔軟な撮像が求められる用途にはスマホ。いずれの場合も画像をクラウドに上げず、現場内で処理します。要件に合わせて入力構成を選定します。

PILLAR_03

現場で頓挫させない
光学×検査の設計力

照明・カメラ・レンズ・搬送の一体設計で、AIが読みやすい入力画像そのものを作り込みます。産業用画像処理の開発現場で培った知見を凝縮し、「カメラ選定ミスで精度が出ない」という現場頓挫の典型を、ハード×ソフト両面から構造的に防ぎます。

PILLAR_04

マスター登録不要、
意味で読む

VLMは文字の位置と意味を理解して読み取るため、フォント違い・書式変更・多言語・手書きにも学習なしで追従。品種が変わるたびのテンプレート再設定から現場を解放します。

How it runs

画像1枚から、構造化データまで。

現場の画像が、項目ごとに意味づけされた構造化データになるまでのフロー。外部に画像を出さず、現場内で完結します。

PHASE_01

画像入力

キーエンス2D/3Dラインカメラ／産業カメラ／スマホ。あらゆるソースから取り込み。

→

PHASE_02

意味理解

文字を「読む」だけでなく「項目として理解」。手書きや崩れも文脈で補正。

→

PHASE_03

構造化

住所・型番・数量など、項目ごとに分けたデータとして出力。確からしさも併記。

→

PHASE_04

業務システム連携

WMSや基幹システムへ自動連携。確認が必要な値だけ目視に回せます。

Hybrid architecture

VLMだけではない。
3つの手法を、案件ごとに配合する。

認識エンジンは、VLM・CNN-OCR・ルールベースを案件ごとに配合し、自社で最適化した単一のソリューションとして提供します。手書き・反射・書式違いはVLM、定型・高速ラインはCNN-OCRとルールベース。どの手法をどう重ねるかを設計できることが、単一の手法に頼るベンダーとの違いです。なお、カメラ・照明・搬送など認識より手前の撮像インフラは、既存設備を流用できる場合があり、ハードの再投資を抑えられます。

VLM

VLM-OCR

手書き・反射・かすれ・書式違いなど、定型化しにくい対象を文脈ごと読み取ります。

CNN

CNN-OCR

定型・高速ラインの大量読み取りを安定して処理する、文字認識の土台です。

RULE

ルールベース

桁数やチェックディジット、書式の検証で、結果を業務要件に合わせて確定します。

At a glance

対応スペック概要

Edge

現場完結・閉域運用

Custom

自社学習基盤を保有

Multi

手書き / 多言語 / 反射

Zero

マスター登録不要

※ 実際の精度・レイテンシは対象画像・撮像条件・カメラ構成により変動します。御社のサンプル画像で個別に検証のうえご報告します。

産業用画像処理の開発知見とVLMを、
あなたの現場に。

「うちの伝票・ラベルは読めるのか？」——御社の画像1枚で、AIが何をどこまで読めるかを、キーエンス出身の開発者を擁するチームが無料で診断します。

画像1枚から無料相談する →

お問い合わせ後、Nsight（info@nsight.jp）から折り返しメールでサンプル画像を受け付けます。

なぜ、現場のOCRは止まるのか。

手書きの崩れ字

反射・かすれ・汚れ

レイアウト・書式違い

読み取り例。

Nsight VLM-OCRが、現場で読み切る理由。

自社で学習・最適化し、現場で完結して動く

用途で選べる入力構成。2D/3Dカメラからスマホまで

現場で頓挫させない光学×検査の設計力

マスター登録不要、意味で読む

画像1枚から、構造化データまで。

画像入力

意味理解

構造化

業務システム連携

VLMだけではない。3つの手法を、案件ごとに配合する。

VLM-OCR

CNN-OCR

ルールベース

対応スペック概要

産業用画像処理の開発知見とVLMを、あなたの現場に。

Nsight VLM-OCRが、
現場で読み切る理由。

自社で学習・最適化し、
現場で完結して動く

用途で選べる入力構成。
2D/3Dカメラからスマホまで

現場で頓挫させない
光学×検査の設計力

マスター登録不要、
意味で読む

VLMだけではない。
3つの手法を、案件ごとに配合する。

産業用画像処理の開発知見とVLMを、
あなたの現場に。