EDGE × VLM × OCR SOLUTION

これまで読めなかった文字を、
エッジで動くVLM-OCRが読み切る。

自社で学習・最適化し、現場のエッジ機器上で完結して動くVLM-OCR。キーエンスの2D/3Dラインカメラとのドッキングからスマホまで、用途に合わせた入力構成で——あらゆる画像から文字を読み取ります。手書き伝票・反射するラベル・かすれた刻印まで、意味ごと理解します。

自社学習基盤 現場完結・閉域運用 キーエンス 2D/3Dカメラ対応 スマホ撮影にも対応
The Gap

なぜ、現場のOCRは止まるのか。

テンプレートと辞書に依存する従来OCRは、「想定どおりの綺麗な文字」でしか動きません。現場の入力はいつも想定外です。

FAIL_01

手書きの崩れ字

人によってクセも筆圧も違う宅配伝票の住所・氏名。文字の形が辞書に一致せず、ルールベースOCRは早々に破綻します。

FAIL_02

反射・かすれ・汚れ

ラミネート梱包の反射、薄れた印字、滲み。CNN-OCRは学習画像から外れた途端、信頼度が崩落します。

FAIL_03

レイアウト・書式違い

ラベルのフォントや項目配置が品種ごとに変わるたび、テンプレート再設定。多品種・多拠点では運用が回りません。

Output examples

読み取り例。

手書きの崩れ字、反射するラベル、書式違い——従来OCRが苦手としてきた現場画像に対する、Nsight VLM-OCRの読み取り例をご紹介します。実際の精度・出力は、対象画像や撮像条件によって変動します。

DEMO_01 · 手書き宅配伝票(鮮明)
手書き宅配伝票のVLM-OCR読み取り結果
// VLM STRUCTURED OUTPUT
postal_code〒102-0093
address東京都千代田区平河町
building_no2-13-1
nameNsight株式会社

崩れ字の「千々田区」を、住所の意味から「千代田区」と判断。郵便番号と住所の整合も確認し、項目ごとに整理して出力します。

DEMO_02 · 手書き伝票(低コントラスト・かすれ)
かすれた手書き伝票のVLM-OCR読み取り結果
// VLM STRUCTURED OUTPUT
postal_code〒102-0093
address_line千代田区平河町2-13-1
building読売平河町ビル

紙の地色とほぼ同化したかすれ文字でも、行ごとに役割(住所/建物名)を判別。テンプレートを登録せずビル名まで拾える例です。

DEMO_03 · 電池梱包ラベル(ラミネート反射)
電池梱包ラベルのVLM-OCR読み取り結果
// VLM STRUCTURED OUTPUT
makerサムスンSDI92%
model_noINR21700-00X96%
rating / cap3.600V / 5000mAh94%
mgmt_noQXXX00X0XX0099%
barcodeQXXX00X0XX00XX00099%

ラミネート反射の下でも、項目名と値のペアを正しく対応付け。項目ごとに確からしさも返すため、自動処理と目視確認の振り分けが可能です。

Why our solution

Nsight VLM-OCRが、
現場で読み切る理由。

アルゴリズムだけを売るベンダーとは違う。学習基盤・エッジ・光学ハード・運用までを、産業用画像処理の開発知見で一気通貫に設計します。

PILLAR_01

自社で学習・最適化し、
現場で完結して動く

モデルの学習・最適化を自社で実施し、推論は現場のエッジ機器上で完結。クラウドにもネットにも依存せず、画像を外部に出さずに読み取れます。セキュリティ要件の厳しい製造・物流現場でも、閉域でそのまま導入できます。

PILLAR_02

用途で選べる入力構成。
2D/3Dカメラからスマホまで

高い精度や安定した連続稼働が必要なラインには、キーエンスの2D/3Dラインカメラとのドッキング構成。可搬性や柔軟な撮像が求められる用途にはスマホ。いずれの場合も画像をクラウドに上げず、現場内で処理します。要件に合わせて入力構成を選定します。

PILLAR_03

現場で頓挫させない
光学×検査の設計力

照明・カメラ・レンズ・搬送の一体設計で、AIが読みやすい入力画像そのものを作り込みます。産業用画像処理の開発現場で培った知見を凝縮し、「カメラ選定ミスで精度が出ない」という現場頓挫の典型を、ハード×ソフト両面から構造的に防ぎます。

PILLAR_04

マスター登録不要、
意味で読む

VLMは文字の位置と意味を理解して読み取るため、フォント違い・書式変更・多言語・手書きにも学習なしで追従。品種が変わるたびのテンプレート再設定から現場を解放します。

How it runs

画像1枚から、構造化データまで。

現場の画像が、項目ごとに意味づけされた構造化データになるまでのフロー。外部に画像を出さず、現場内で完結します。

PHASE_01

画像入力

キーエンス2D/3Dラインカメラ/産業カメラ/スマホ。あらゆるソースから取り込み。

PHASE_02

意味理解

文字を「読む」だけでなく「項目として理解」。手書きや崩れも文脈で補正。

PHASE_03

構造化

住所・型番・数量など、項目ごとに分けたデータとして出力。確からしさも併記。

PHASE_04

業務システム連携

WMSや基幹システムへ自動連携。確認が必要な値だけ目視に回せます。

Hybrid architecture

既存のOCRを
置き換えず、上に重ねる。

すでに導入済みのルールベースOCRやCNN-OCRは、そのまま活かせます。Nsight VLM-OCRは追加レイヤーとして組み込み、これまで読めなかった部分だけを補完。リプレースのコストとリスクを抑えながら、現場の認識率を底上げします。

+ADD

Nsight VLM-OCR

従来OCRが取りこぼした手書き・反射・書式違いを補完。

EXISTING

既存OCR資産(ルールベース/CNN-OCR)

定型・高速ラインの本番判定はそのまま稼働。投資を保護します。

At a glance

対応スペック概要

Edge
現場完結・閉域運用
Custom
自社学習基盤を保有
Multi
手書き / 多言語 / 反射
Zero
マスター登録不要

※ 実際の精度・レイテンシは対象画像・撮像条件・カメラ構成により変動します。御社のサンプル画像で個別に検証のうえご報告します。

産業用画像処理の開発知見とVLMを、
あなたの現場に。

「うちの伝票・ラベルは読めるのか?」——御社の画像1枚で、AIが何をどこまで読めるかを、キーエンス出身の開発者を擁するチームが無料で診断します。

画像1枚から無料相談する →

お問い合わせ後、Nsight(info@nsight.jp)から折り返しメールでサンプル画像を受け付けます。