物流AI-OCR / 技術・撮像

送り状OCR自動化:
伝票フォーマット多様化に対応する
VLMアプローチ

ヤマト・佐川・日本郵便など配送伝票ごとに異なるフォーマットを、VLM OCRでテンプレート不要に読み取る技術解説。送り状に最適な撮像設計、WMS連携による自動仕分けまでを元キーエンス画像処理エンジニアが解説。

2026-06-15 / 最終更新 2026-06-15 / 監修:嶋野(元キーエンス画像処理事業部)/ 読了時間:約10分
01
送り状(配送伝票)は配送業者ごとにフォーマットが異なり、従来OCRではテンプレート定義の維持コストが導入障壁になっている。
02
VLM(Vision Language Model)による自然言語指示ベースのフィールド抽出で、書式変更に追従不要なOCRを実現できる。
03
反射・カーボン複写に対応する撮像設計とWMS突合を組み合わせることで、入荷検品から自動仕分けまで一気通貫で自動化できる。
― 目次
  1. 送り状OCRの現状と課題
  2. 従来OCRのテンプレート地獄
  3. 送り状に含まれる情報フィールドの整理
  4. VLM OCRによるフォーマット非依存の読み取り
  5. 撮像設計:送り状に最適なカメラ・照明構成
  6. WMS連携:読み取りデータの突合と自動仕分け
  7. 導入事例的シナリオ:中規模3PL倉庫での適用イメージ
  8. 関連記事
  9. よくある質問
― 01 / 現状と課題

送り状OCRの現状と課題

物流倉庫の入荷検品において、送り状(配送伝票)の読み取りは依然として人手に頼る現場が多い。その根本原因は、配送業者ごとにフォーマットが全く異なるという物流業界特有の事情にあります。

ヤマト運輸の送り状、佐川急便の送り状、日本郵便のゆうパックラベル、さらにはEC事業者独自の納品書兼送り状――。1つの倉庫に入荷してくる伝票の種類は、取引先の数だけ増えていきます。中規模の3PL(サード・パーティ・ロジスティクス)倉庫であれば、日常的に10種類以上のフォーマットが混在するのが当たり前です。

各配送業者の送り状には共通して「届け先住所」「送り主情報」「追跡番号」が記載されていますが、その配置・フォント・バーコード体系・用紙サイズは統一されていません。さらに厄介なのは、同じ配送業者であっても年に1〜2回のペースで書式が変更される点です。

この「フォーマットの多様性」と「書式変更の頻度」が、送り状OCR自動化を阻む最大の壁になっています。

現場の実態:ある中規模3PL倉庫では、入荷検品担当者が1日あたり800〜1,200枚の送り状を目視で確認し、WMSに手入力しています。1枚あたり平均20秒として、1日4〜7時間が伝票処理に消えている計算です。誤入力率は0.3〜0.5%程度ですが、誤配送1件のリカバリーコスト(再配送・顧客対応)を考えると、年間で無視できない損失額になります。
― 02 / テンプレート地獄

従来OCRで送り状を読む際のテンプレート地獄

従来のルールベースOCR(テンプレートマッチング方式)で送り状を読み取ろうとする場合、まず伝票上の「どの座標に何の情報があるか」を1フォーマットずつ定義する必要があります。これがいわゆるテンプレート定義です。

テンプレート方式の運用フローは、概ね次のようになります。

  1. 新しいフォーマットの送り状が現場に届く
  2. SIベンダーにテンプレート作成を依頼(座標指定、フィールド名マッピング、文字種指定)
  3. テスト画像で読み取り精度を検証し、閾値を調整
  4. 本番環境にデプロイ
  5. 配送業者が書式を変更すると、再度ステップ2に戻る

このサイクルが、取り扱いフォーマット数 x 書式変更頻度の掛け算で発生します。10フォーマット x 年2回変更 = 年間20回のテンプレート修正。1回あたりの外注費が5〜15万円とすると、テンプレート維持だけで年間100〜300万円のランニングコストが発生することになります。

さらに深刻なのは、テンプレート修正が完了するまでのリードタイムです。書式変更から新テンプレートの本番投入まで2〜4週間かかるケースが一般的で、その間は該当フォーマットの伝票を手動処理に切り戻す運用になります。結局、完全自動化には至らず「半自動 + 人手のハイブリッド」に落ち着いてしまうのがテンプレート方式の限界です。

テンプレート方式のもう一つの盲点:伝票の傾き・ずれへの耐性が低い点も見逃せません。送り状はケースに手貼りされることが多く、5〜10度の傾きは日常的に発生します。テンプレートの座標指定は傾き補正後の理想位置を前提としているため、補正が不完全だと読み取り位置がずれ、フォント・位置のバリエーションに対応しきれなくなります。
― 03 / フィールド整理

送り状に含まれる情報フィールドの整理

送り状OCRを設計するにあたり、まず「伝票から何を読み取る必要があるのか」を整理しておきます。配送業者やフォーマットが異なっても、入荷検品で必要になる情報フィールドは概ね共通しています。

フィールド内容WMS突合での用途読み取り難易度
追跡番号(送り状番号)12〜14桁の数字列。バーコード併記が多い入荷予定データとの一次照合キー低(バーコード読み取り可)
届け先住所都道府県〜番地、マンション名・部屋番号納品先拠点の特定、誤配送チェック中(手書き混在あり)
届け先氏名・社名個人名または法人名受取人照合中(手書き混在あり)
届け先電話番号固定電話またはモバイル配送不能時の連絡先低(数字のみ)
送り主住所・氏名出荷元の情報仕入先照合、返品対応
品名「食品」「精密機器」「衣類」等保管場所振り分け、温度帯判定中(省略・略記が多い)
個数梱包個数入荷数量チェック
配送指定日時希望配達日・時間帯出荷スケジュール管理中(記載位置がばらつく)
配送種別通常・冷蔵・冷凍・代引き等温度帯別仕分け、代金回収フロー低〜中

上記のうち、追跡番号はバーコードリーダーで高精度に読めるため、OCRの主戦場はバーコード化されていないテキストフィールド(住所・氏名・品名など)です。特に手書き記入欄が残っている伝票では、従来OCRの認識率が大幅に低下します。

ラベルOCR検査の一般的な知見として、印字文字の認識率が99%を超える条件でも、手書き文字が混在すると全体認識率は95%前後まで落ちるのが実情です。送り状OCRでは、この手書き混在を前提とした設計が求められます。

― 04 / VLM OCR

VLM OCRによるフォーマット非依存の読み取り

テンプレート方式の限界を突破するアプローチとして、VLM(Vision Language Model)を用いたOCRが注目されています。VLMは画像認識と言語理解を統合したAIモデルであり、テンプレート定義なしで「画像のどこに何が書いてあるか」を意味レベルで推論できます。

自然言語指示によるフィールド抽出

VLM OCRの最大の特長は、読み取りたい情報を自然言語で指示できる点です。例えば次のような指示をVLMに渡します。

VLMは伝票画像全体を「見て」、指示された情報がどこに記載されているかを文脈から判断し、該当するテキストを抽出します。フォーマットが変わっても、「届け先住所」という概念をVLMが理解しているため、座標指定は不要です。

フォーマット変更への耐性

配送業者が伝票レイアウトを変更した場合でも、「届け先住所」「追跡番号」「品名」といったフィールドの意味自体は変わりません。VLMは座標ではなく意味でフィールドを特定するため、書式変更のたびにテンプレートを再定義する必要がないのです。

ただし注意点があります。VLMの推論精度はプロンプト(自然言語指示)の設計品質に左右されます。「住所を読み取ってください」という曖昧な指示では、届け先住所と送り主住所を取り違えるリスクがあります。Nsightでは伝票種別ごとにプロンプトを最適化し、フィールド間の混同を防ぐ設計を標準としています。

手書き・かすれ・多言語への対応力

VLMは大規模な画像-テキストペアで事前学習されているため、手書き文字・かすれ印字・多言語テキストに対して従来OCRより大幅に高い認識精度を発揮します。物流OCRの限界を超えるVLAアプローチでも詳述していますが、特に送り状で頻出する「手書き品名欄」「薄いカーボン複写面」でVLMの優位性が顕著です。

VLMのレイテンシについて:VLMの推論には数百ミリ秒〜数秒を要します。外観検査のように0.2秒/個のラインスピードが求められるタスクには向きませんが、送り状OCRは1伝票あたり1〜3秒のタクトで処理できれば十分な用途がほとんどです。この「許容レイテンシの広さ」が、送り状OCRにVLMを適用しやすい理由の一つです。
― 05 / 撮像設計

撮像設計:送り状に最適なカメラ・照明構成

VLMの認識精度がいかに高くても、入力画像の品質が低ければ読み取り結果は劣化します。送り状OCRでは、伝票特有の物理的条件を考慮した撮像設計が不可欠です。

送り状撮像で直面する3つの課題

  1. 表面反射:送り状の多くはラミネート加工や光沢紙で、直射照明では白飛びが発生する
  2. カーボン複写面:配送控えや受領控えはカーボン複写で、コントラストが極端に低い
  3. 貼付状態のばらつき:手貼りによる傾き・しわ・一部剥がれが日常的に発生する

推奨する撮像構成

構成要素推奨仕様選定理由
カメラエリアカメラ 500万画素以上、グローバルシャッターA4サイズの送り状全面を1ショットで撮像。搬送中のブレを防止
レンズ低歪曲レンズ、WD 300〜500mm伝票全面を均一解像度で撮像。歪みによるOCR精度低下を防止
照明拡散型バー照明(LED)、斜め45度2灯配置ラミネート面の正反射を回避。均一照度を確保
偏光フィルタカメラ側に偏光板を装着光沢面からの反射光をカット。カーボン複写面のコントラスト改善
背景無反射黒色プレート伝票エッジの検出精度向上。外乱光の抑制

照明設計の基礎でも解説しているとおり、産業用OCRでは照明設計がシステム全体の精度を左右します。送り状に特化した設計のポイントは、拡散照明と偏光フィルタの組み合わせによる反射制御です。

カーボン複写面への対応

カーボン複写面は通常面に比べてコントラストが50〜70%低下する場合があります。これに対しては、照明の照射角度を浅く(15〜30度)して表面テクスチャを強調する「ローアングル照明」と、偏光フィルタの組み合わせが有効です。画像取得後にソフトウェア側でコントラスト強調処理を入れることで、VLMへの入力画像品質を担保します。

撮像ステーションの物理設計:ベルトコンベア上での撮像では、送り状がケース上面に貼付されている前提でカメラを真上に設置するのが基本構成です。側面貼付の伝票も読む必要がある場合は、側面用カメラを追加します。通過センサでトリガーをかけ、ケースが撮像位置に到達したタイミングで撮像する構成です。
― 06 / WMS連携

WMS連携:読み取りデータの突合と自動仕分け

送り状OCRの読み取り結果は、それ単体では「テキストデータ」に過ぎません。WMSとのデータ連携によって初めて、入荷検品の自動化・自動仕分けという業務価値が生まれます。

突合フローの全体像

VLMが送り状から抽出した構造化データ(追跡番号・届け先・品名・個数)を、WMS側の入荷予定データ(ASN: Advance Shipping Notice)と突合するのが基本フローです。

  1. 送り状画像をVLMに入力し、全フィールドを構造化JSON形式で出力
  2. 追跡番号をキーにWMSの入荷予定データを検索
  3. 予定データと送り状データの各フィールドを照合(届け先・個数・品名)
  4. 一致 → 自動検品完了、仕分けレーンを指示
  5. 不一致 → 差異内容をアラート表示し、人手確認フローに回す

自動仕分けへの展開

OCR結果から「配送種別」「届け先エリア」「温度帯」を抽出できれば、ソーターやダイバータへの仕分け指示を自動で出すことが可能になります。具体的には次のような分岐ロジックを組みます。

この仕分けロジックはWMS側で管理し、OCRシステムからはフィールドデータをAPIで連携する設計が保守性の面で優れています。

WMS連携パターン

Nsightが標準的に採用するWMS連携パターンは3種類です。

連携パターンWMS側の要件特徴
API直結型REST APIが公開されているWMSリアルタイム連携。最も低レイテンシ
中継サーバー型API非公開。CSV取込またはDB参照が可能既存WMSの改修不要。中継サーバーがデータ変換を担う
ファイル連携型共有フォルダ経由のバッチ取込のみ対応レガシーWMSにも対応可能。リアルタイム性は劣る

既存WMSの仕様を変更せず、OCR側から「データを注入する」形で連携するのが基本方針です。WMS側の改修を最小限に抑えることで、導入リスクとコストを低減します。

※ 記載の金額・料金は記事執筆時点の参考値です。最新情報は各メーカー・ベンダーの公式サイトをご確認ください。

― 07 / 導入シナリオ

導入事例的シナリオ:中規模3PL倉庫での適用イメージ

ここでは、日量1,000件前後の入荷を処理する中規模3PL倉庫を想定し、送り状VLM OCRシステムの導入シナリオを具体的に描きます。

現場の前提条件

導入ステップ

Week 1-2:現場調査+サンプル画像検証

現場で実際の送り状をサンプル撮像し、全フォーマットの読み取り可能性をNsightのVLMエンジンで検証します。この段階で、フォーマットごとの認識率・読み取り不能フィールドの有無を明確にし、PoC設計書を作成します。サンプル検証までは無料です。

Week 3-4:PoC実機設置+テスト運用

入荷ラインにカメラ・照明を仮設置し、実運用に近い条件で読み取りテストを実施します。WMSへのCSVファイル連携テストも並行して行い、「読み取り → 突合 → 仕分け指示」の一連のフローが回ることを確認します。

Month 2-3:本番運用+精度改善

PoC結果をもとに本番構成に移行します。この段階で重要なのは、読み取り精度のモニタリング体制です。全件の読み取りログを蓄積し、誤読パターンをプロンプト改善にフィードバックするサイクルを回します。

期待される効果

指標導入前導入後(安定運用時)
入荷検品の所要時間1件あたり約20秒(手入力)1件あたり約2秒(自動読み取り)
検品人員パート3名+繁忙期派遣2名パート1名(例外処理担当)
誤入力率0.3〜0.5%0.05%以下(VLM + 突合チェック)
書式変更時の対応工数テンプレート再設定(2〜4週間、5〜15万円/回)原則不要(必要時もプロンプト微調整のみ)

検品人員の削減効果だけでなく、誤入力に起因する誤配送・再配送のコスト削減、繁忙期の人員確保の不確実性解消など、間接的な効果も含めて投資対効果を評価することが重要です。

※ 上記は想定シナリオであり、実際の効果は現場条件によって異なります。

― 08 / 関連

関連記事・関連ソリューション

― 09 / FAQ

よくある質問

送り状のカーボン複写面でもOCRで読めますか?

カーボン複写面は通常面に比べてコントラストが低く、従来OCRでは読み取り精度が大幅に低下します。Nsightでは偏光フィルタと拡散照明の組み合わせでコントラストを確保したうえで、VLMが低コントラスト文字にも対応するため、複写面でも実用精度を達成できます。

配送業者が書式を変更した場合、再設定は必要ですか?

VLMベースのアプローチでは、テンプレート定義に依存しないため、書式変更時の再設定は原則不要です。ただし大幅なレイアウト変更があった場合は、プロンプト(自然言語指示)の微調整で対応します。テンプレート再設計に比べて工数は大幅に削減されます。

1時間あたり何枚の送り状を処理できますか?

撮像からVLM推論、WMSへのデータ送信まで含めて1伝票あたり1〜3秒が標準的な処理時間です。単純計算で1時間あたり1,200〜3,600枚の処理が可能です。複数カメラの並列構成でさらにスループットを上げることもできます。

どの段階から費用が発生しますか?

送り状サンプル画像の検証・ヒアリング・PoC設計書作成までは無料です。PoC実機導入から費用が発生し、PoC完了後の本番展開見積もりはPoC設計書段階で明示します。

― REVIEWED BY
嶋野(元キーエンス画像処理事業部 開発エンジニア)
キーエンス画像処理部門での実務経験をもとに、産業用カメラ・照明・光学系・検査装置の開発に従事し、現在はNsightの技術コンテンツ監修を担当。プロフィール詳細 →

送り状画像1枚から、無料で診断します

貴社の送り状・伝票画像を送っていただければ、元キーエンス画像処理エンジニアが読み取り可能性と推奨構成をレポートにしてお返しします。

画像1枚から無料相談 →