エッジ検査モデルの圧縮・量子化｜INT8・枝刈り・蒸留の使い分けとレイテンシ設計

検査モデルをエッジに載せる目的は「速度」だけではなく、ライン直結・無人運転・通信途絶耐性・データ秘匿といった運用要件を満たすことにあります。圧縮・量子化はその手段であり、目的化すると精度の崩れに気づきにくくなると考えます。

INT8量子化・枝刈り（プルーニング）・知識蒸留は競合ではなく役割が異なる道具です。量子化は数値表現を削り、枝刈りは構造を削り、蒸留は小さなモデルに知識を移します。タクトと精度許容、欠陥の希少性に応じて組み合わせるのが現実的だと考えます。

精度低下は平均値ではなく「見逃し（特定の微小欠陥）」に偏って現れることが多く、テストセット全体のmAPだけでは掴みにくいと考えられます。圧縮後は現物・現ラインでの検証、特に重欠陥クラスの再現率を起点に評価することが前提になると考えます。

― 01 / 背景と課題

なぜエッジ検査でモデル圧縮・量子化が必要になるのか

産業用画像検査をクラウドではなくエッジ（Jetsonのような組込みGPUや産業PC）で動かす理由は、単に「速いから」ではありません。検査がラインのタクトに直結している以上、判定はカメラの近くで完結している必要があり、ネットワークの揺らぎやクラウド側の混雑が判定遅延として現れること自体が、ライン停止や流出のリスクになると考えられます。エッジで完結させることは、通信途絶への耐性、画像データを社外へ出さない秘匿性、そして無人運転時の自律性といった、複数の運用要件をまとめて満たすための選択だと整理できます。

一方で、エッジのハードウェアはクラウドのGPUサーバーに比べて演算能力もメモリ帯域も限られます。学習時に高い精度を出したモデルを、そのままの精度（FP32やFP16）と規模でエッジに載せようとすると、推論が一枚あたりのタクトに収まらない、メモリに乗り切らない、消費電力と発熱が筐体の制約を超える、といった壁に当たることが少なくありません。ここで登場するのがモデルの圧縮・量子化です。詳しいエッジとクラウドの役割分担はエッジとクラウドの検査AI比較でも整理しています。

圧縮は「目的」ではなく「制約への適合」

圧縮・量子化を語るとき、つい「どれだけ軽くできたか」「何倍速くなったか」に目が向きがちです。しかし検査においてまず守るべきは、出荷判定としての品質、とりわけ重欠陥の見逃しを起こさないことです。圧縮はあくまで、決められたタクト・決められたハードウェアという制約の中に、必要な精度を収めるための適合作業だと捉えるのが安全だと考えます。速度や軽さが目的化すると、平均精度は保たれているのに特定の微小欠陥だけ取りこぼす、という静かな劣化を見落としやすくなります。

「載せられる」と「使える」は別物

量子化してJetson上で動いた、という状態は出発点に過ぎません。実運用では、撮像トリガからの応答時間、複数カメラを束ねたときの合計負荷、長時間連続運転での発熱とサーマルスロットリング、そして再学習でモデルを差し替えるときの再量子化の手間まで含めて「使える」かどうかが決まります。本記事では、INT8量子化・枝刈り・知識蒸留という三つの代表的な手段を、それぞれが何を削っているのかという観点から整理し、検査という用途でどう使い分けるかを実務目線で考えていきます。

この記事の前提と読み方

以下では、特定の製品やフレームワークの設定手順そのものよりも、「どの手段が何を犠牲にするのか」「どこで精度が崩れやすいのか」という判断軸を中心に述べます。具体的な数値（圧縮率や速度向上の倍率）はモデル構造・欠陥の性質・ハードウェアに強く依存するため、ここでは一般論にとどめ、最終的には現物・現ラインでの検証を前提とする立場をとります。Jetson自体の特性についてはNVIDIA Jetsonとは何かもあわせてご覧ください。

― 02 / アプローチ

INT8量子化・枝刈り・知識蒸留──それぞれが何を削っているのか

モデルを軽くする手段は数多くありますが、検査の現場で扱うことが多いのは量子化・枝刈り・蒸留の三つだと考えます。重要なのは、これらが互いに競合する選択肢ではなく、削っている対象が異なる道具だという点です。役割を取り違えると、「量子化したのに思ったほど速くならない」「枝刈りしたら微小欠陥だけ落ちた」といった噛み合わない結果になりがちです。

量子化：数値表現の精度を削る

量子化は、重みや活性化をFP32やFP16からINT8（場合によってはより低ビット）へ落とし、数値表現の精度そのものを削る手法です。多くのエッジ推論エンジンはINT8演算に最適化された経路を持つため、メモリ使用量の削減と推論の高速化を同時に狙えることが多いと考えられます。検査用途で第一に検討されることが多いのは、構造を変えずに適用でき、再学習なしでも一定の効果が得られる場合があるためです。一方で、ダイナミックレンジの広い層や、微小なコントラスト差で欠陥を見分けているモデルでは、量子化誤差が判定境界に影響することがあり、後述するキャリブレーションの質が結果を大きく左右します。

枝刈り（プルーニング）：構造を削る

枝刈りは、寄与の小さい重みやチャネル、フィルタを取り除き、モデルの構造そのものを小さくする手法です。重み単位で疎にする非構造的枝刈りと、チャネルや層の単位でまとめて落とす構造的枝刈りがあり、エッジの実速度に効くのは後者であることが多いと考えられます。非構造的に疎にしても、対応するスパース演算がハードウェアで加速されなければ、メモリは減っても速度はあまり改善しない、ということが起こり得るためです。枝刈りは構造を変えるため、基本的には刈った後の再学習（ファインチューニング）で精度を回復させる工程とセットで考えるのが現実的だと考えます。

知識蒸留：知識を小さなモデルへ移す

知識蒸留は、大きく高精度な教師モデルの出力（クラス確率や中間特徴）を手がかりに、小さな生徒モデルを学習させ、教師の振る舞いを移す手法です。最初から軽量なアーキテクチャを選びつつ、単独で学習させるより高い精度を狙える可能性があります。検査では、汎用の大規模モデルやVLMと従来型ディープラーニングの比較で触れたような重いモデルを教師に据え、現場で回す軽量モデルを生徒として育てる、という構図が考えられます。ただし蒸留は学習パイプラインそのものを設計し直す必要があり、量子化や枝刈りに比べると着手のコストは高い傾向があります。

三つは「順番」と「組み合わせ」で効く

実務では、これらを単独で使うより組み合わせることが多いと考えます。例えば、蒸留や枝刈りで構造を軽くしてから量子化で数値表現を削る、という順序です。構造を削ってから数値を削るのは、構造側の変更が大きく精度に影響するため、先に構造を確定させてから量子化誤差を評価するほうが切り分けやすい、という発想に基づきます。逆に、まず量子化だけで要件を満たせるなら、構造には手を入れない判断もあり得ます。どこまでやるかは、後述するタクトと精度許容のバランスで決まると考えます。

― 03 / 設計

どの手段をどこまで使うか──タクト・精度許容・欠陥の希少性で決める

三つの手段を理解したうえで、次に問題になるのは「自分のラインではどれをどこまで適用すべきか」です。ここに唯一の正解はなく、いくつかの判断軸を掛け合わせて決めるのが現実的だと考えます。代表的な軸はタクト（許される推論時間）、精度許容（どこまでの劣化なら出荷判定として認められるか）、そして欠陥の希少性です。

軸1：タクトとレイテンシの予算

まず、一枚あたり何ミリ秒で判定を返さなければならないかを明確にします。ここで注意したいのは、推論時間だけでなく、撮像・前処理・後処理・PLCへの結果通知までを含めた「トリガから判定確定までの総時間」で考える必要がある点です。推論を量子化で半分にしても、前処理や通信がボトルネックなら体感速度は変わりません。PLCとAIの連携を含めた経路全体でレイテンシ予算を割り振り、そのうちモデル推論に許される枠を先に決めてから、必要な圧縮量を逆算するのが筋が良いと考えます。

軸2：精度許容と欠陥の重み付け

精度許容は、単一のしきい値では語れません。検査では、見逃し（重欠陥の流出）と過検出（良品の誤排出）でコストの非対称性が大きいのが普通です。圧縮によってわずかに過検出が増えるのは、再検査ラインで吸収できるなら許容できる場合があります。しかし重欠陥の見逃しが一件でも増えるなら、その圧縮は採用すべきでないと考えるのが安全です。したがって精度許容は、全体のmAPや正解率ではなく、欠陥クラスごと、特に重欠陥クラスの再現率を基準に設定するのが望ましいと考えます。

軸3：欠陥の希少性とデータの偏り

希少な不良ほど、圧縮の影響を受けたときに気づきにくくなります。テストセットに数枚しか含まれない欠陥は、一枚の判定が変わるだけで再現率が大きく振れ、統計的な評価が不安定になるためです。希少欠陥を多く抱えるラインでは、圧縮の前にまず評価用データの質と量を整えることが先決だと考えます。希少サンプルの蓄積と版管理については欠陥ライブラリの設計が関わり、これは別途、運用資産として育てるテーマになります。圧縮はその土台の上で初めて安全に評価できると考えます。

判断のたたき台：軽い順に試す

実務上の進め方としては、影響の小さい手段から段階的に試し、要件を満たした時点で止めるのが無難だと考えます。具体的には、まず学習後量子化（PTQ）を試し、精度が許容内かを重欠陥再現率で確認します。足りなければ量子化を意識した再学習（QAT）に進み、それでも速度が足りなければ構造的枝刈りや、より軽量なアーキテクチャへの蒸留を検討する、という順です。最初から枝刈りと蒸留と量子化を全部盛りにすると、精度が崩れたときにどの工程が原因か切り分けられなくなります。一手ずつ、効果と副作用を測りながら進めることをおすすめします。

― 04 / 設計

INT8量子化を検査で使うときの実務ポイント

三つの手段のうち、最初に手を付けることが多いのが量子化です。ここでは検査用途でINT8量子化を扱う際に、結果を左右しやすい論点を具体的に整理します。

PTQとQAT：どちらから始めるか

量子化には、学習済みモデルに後から適用する学習後量子化（PTQ）と、量子化を織り込んで学習し直す量子化対応学習（QAT）があります。PTQは手軽で、再学習の環境がなくても試せるため最初の一手に向いていると考えます。一方、PTQで精度が崩れる場合や、もともと量子化に敏感な構造の場合は、QATで量子化誤差を学習時に吸収させるほうが安定することが多いと考えられます。手軽さと精度安定性のトレードオフであり、まずPTQで当たりを付け、足りなければQATへ、という順序が現実的だと考えます。

キャリブレーションデータの選び方が結果を決める

PTQでは、活性化のダイナミックレンジを推定するためにキャリブレーション用の画像を与えます。ここで現場の実画像分布を代表しないデータ（例えば良品ばかり、特定ロットばかり、照明条件が偏ったもの）を使うと、量子化の範囲推定が偏り、本番で出会う欠陥やばらつきに対して誤差が大きくなることがあります。キャリブレーションには、良品・各欠陥・照明や個体のばらつきを含む、実ラインに近い分布のサンプルを選ぶことが重要だと考えます。少量でも分布を代表していることが、枚数の多さより効くと考えられます。

量子化に弱い層を見極める

すべての層を一律にINT8化すると、特定の層で誤差が膨らみ精度が崩れることがあります。検出ヘッドの最終層や、ダイナミックレンジの広い層、微小な差を扱う層は量子化感度が高い傾向があると考えられます。こうした層だけFP16などで残す混在精度（ミックスド・プレシジョン）にすることで、速度をある程度保ちつつ精度の崩れを抑えられる場合があります。どの層が敏感かはモデルごとに異なるため、層ごとの量子化誤差を計測して切り分ける地道な作業が要ると考えます。

精度評価は「平均」ではなく「分布」で見る

量子化後の評価で最も誤りやすいのが、全体のmAPや正解率が維持されているのを見て「問題なし」と判断してしまうことです。前述のとおり、劣化は特定の微小欠陥クラスに偏って現れることが多く、平均値では隠れます。量子化前後で混同行列を欠陥クラスごとに比較し、特に重欠陥の再現率と、しきい値付近の確信度がどう動いたかを確認することが、安全な評価につながると考えます。確信度の見せ方や信頼形成については目視検査をAIで置き換える際の考え方でも触れています。

― 05 / 設計

枝刈りと蒸留──構造を削る・知識を移すときの注意点

量子化だけで速度要件を満たせない場合に検討するのが、構造を削る枝刈りと、軽量モデルへ知識を移す蒸留です。どちらも量子化より着手コストが高い分、設計上の注意点も増えます。

構造的枝刈りを優先する理由

枝刈りには重み単位の非構造的枝刈りとチャネル・層単位の構造的枝刈りがありますが、エッジでの実速度向上を目的とするなら、まず構造的枝刈りを検討するのが現実的だと考えます。非構造的に疎にしても、それを加速できるハードウェアやランタイムが揃っていなければ、メモリは減っても推論時間は思ったほど縮まないことがあるためです。チャネルをまとめて落とす構造的枝刈りは、密な演算として実行できるため、エッジの実機で素直に速くなりやすいと考えられます。

枝刈りは「刈って終わり」ではない

枝刈りでチャネルを落とすと、その時点では精度が下がるのが普通です。落とした構造の分を、残った構造で補えるように再学習（ファインチューニング）する工程まで含めて初めて枝刈りは完成すると考えます。さらに、どれだけ刈るかを一度に決め打ちするより、少しずつ刈っては再学習する反復的な進め方のほうが、精度を保ちやすい場合があります。刈る量と精度回復の関係はモデルとデータに依存するため、ここでも段階的な検証が前提になると考えます。

蒸留は「教師の質」と「生徒の容量」のバランス

知識蒸留では、教師モデルが十分に高精度であること、そして生徒モデルが移された知識を受け止められるだけの容量を持つことの両立が要点だと考えます。生徒を極端に小さくしすぎると、教師の知識を表現しきれず、蒸留しても頭打ちになることがあります。逆に教師が現場の欠陥を十分に捉えられていなければ、その弱点ごと生徒に移ってしまいます。教師の整備と生徒の容量設計はセットで考える必要があると考えます。

蒸留と量子化・枝刈りの組み合わせ

蒸留は他の手段と組み合わせやすい点も特徴です。軽量な生徒モデルを蒸留で育て、その生徒をさらに量子化してエッジに載せる、という二段構えは現実的な選択肢だと考えます。また、枝刈りで構造を削る際に、元のモデルを教師とした蒸留を再学習工程に組み込むことで、精度回復を助けられる場合もあります。いずれにせよ、複数手段を重ねるほど精度の切り分けは難しくなるため、各段階で重欠陥再現率を測りながら進めることが欠かせないと考えます。

― 06 / 運用

レイテンシと精度のトレードオフを運用にどう落とすか

圧縮・量子化はモデル単体の話に見えますが、実際には運用全体の設計と切り離せません。ここでは、精度と速度のトレードオフを現場のオペレーションにどう落とし込むかを考えます。

レイテンシは経路全体で予算化する

前述のとおり、体感の判定速度はモデル推論だけで決まりません。撮像、転送、前処理（リサイズ・正規化）、推論、後処理（NMSやしきい値判定）、結果のPLC通知までを一本の経路として捉え、それぞれにレイテンシ予算を割り振るのが有効だと考えます。圧縮でモデル推論を削っても、前処理が重ければ全体は縮みません。どこがボトルネックかを実機で計測し、最も効く箇所から手を付けるのが合理的だと考えます。JetsonでのエッジAI検査では、こうした実機上の構成についても整理しています。

複数カメラ・複数モデルでの合計負荷

一台のエッジで複数カメラや複数モデルを束ねる構成では、単体で測ったレイテンシが合計負荷の下で悪化することがあります。GPUメモリの取り合い、バッチ処理の待ち、サーマルスロットリングによるクロック低下などが理由です。圧縮の効果を評価するときは、単体ではなく本番に近い同時負荷の状態で測ることが重要だと考えます。設計段階で、どのカメラを同一エッジに同居させるかという割り付け自体が、圧縮の必要量を左右すると考えられます。

発熱・電力・連続運転という制約

エッジ機器は長時間の連続運転で発熱し、サーマルスロットリングが起きると推論が遅くなることがあります。短時間のベンチマークでは出なかった遅延が、夜間連続運転で顔を出す、ということが起こり得ます。圧縮は演算量とともに発熱・消費電力を下げる方向に働くため、速度だけでなく安定運転のためにも有効な場合があります。夜間・無人運転のように人が張り付かない時間帯ほど、こうした熱と安定性の設計が効いてくると考えます。

精度マージンを運用で吸収する

圧縮でわずかに精度が落ちる場合でも、運用側にマージンを設けることで全体として要件を満たせることがあります。例えば、確信度がしきい値付近の判定だけを保留し、再検査や目視確認に回すといった二段構えです。ただしこの設計は、保留率が高くなりすぎると人手の負荷に跳ね返るため、保留の量と人員のバランスを現場と合意したうえで決める必要があると考えます。圧縮はモデルだけの最適化ではなく、人と機械の役割分担まで含めた運用設計の一部だと捉えるのが実務的だと考えます。

― 07 / 落とし穴

圧縮・量子化で現場が踏みやすい落とし穴

ここまでの内容を踏まえ、実際のプロジェクトで繰り返し見られる失敗パターンを、注意点として整理します。圧縮・量子化は効果が分かりやすい一方、評価を誤ると静かに品質を損なうため、事前に踏みどころを知っておくことが大切だと考えます。

平均精度だけで合否を判断する：全体mAPや正解率が維持されているのを見て安心し、特定の微小欠陥クラスの再現率低下を見落とすパターンです。評価は欠陥クラスごと、特に重欠陥の再現率を基準にすべきだと考えます。
キャリブレーションデータが本番分布とずれている：良品ばかり、特定ロットばかりのデータでPTQを行い、本番のばらつきや欠陥で誤差が膨らむパターンです。実ラインに近い分布を代表するサンプルを使うことが重要だと考えます。
非構造的枝刈りで速度が出ないと誤解する：重みを疎にしたのに実機が速くならず「枝刈りは効かない」と結論づけるパターンです。エッジの実速度には構造的枝刈りが効きやすいという前提を押さえておく必要があります。
圧縮を一度に全部盛りにして切り分け不能になる：枝刈り・蒸留・量子化を同時に適用し、精度が崩れたときに原因工程を特定できなくなるパターンです。一手ずつ効果と副作用を測る進め方が安全だと考えます。
単体ベンチで速度を測り本番で遅くなる：複数カメラ同時負荷やサーマルスロットリングを考慮せず、本番で想定外の遅延が出るパターンです。本番に近い同時負荷・連続運転で計測することが前提になります。
再学習時の再量子化フローを設計していない：欠陥ライブラリの更新でモデルを再学習するたびに量子化をやり直す手間を見積もっておらず、運用が回らなくなるパターンです。再量子化・再評価までを含めた更新フローを最初から設計すべきだと考えます。
確信度の意味が圧縮で変わったことに気づかない：量子化でしきい値付近の確信度分布が動き、従来のしきい値設定が最適でなくなるパターンです。圧縮後はしきい値の再調整を前提とするのが安全だと考えます。
PoCの評価環境と本番ハードが違う：開発機（高性能GPU）で精度・速度を確認し、本番のエッジで再現しないパターンです。PoCが失敗する理由でも触れたとおり、評価は本番に近いハードで行うことが重要だと考えます。

これらはいずれも、圧縮そのものの技術的な難しさというより、評価設計と運用設計の抜けから生じるものが多いと考えます。逆に言えば、評価の基準を重欠陥再現率に置き、本番に近い条件で測り、更新フローまで設計しておけば、多くは事前に避けられると考えられます。

― 08 / ロードマップ

現場でのロードマップ──小さく始め、現物で確かめる

最後に、エッジ検査モデルの圧縮・量子化を実際のプロジェクトでどう進めるか、段階的なロードマップとして整理します。技術の選択そのものより、検証の順序と判断基準を決めておくことが、後戻りを減らすうえで効くと考えます。

ステップ1：要件とレイテンシ予算を先に固める

まず、タクトから逆算した総レイテンシ予算と、欠陥クラスごとの精度許容（特に重欠陥再現率の下限）を文書として固めます。ここが曖昧なまま圧縮に入ると、後から「どこまで落としてよいのか」を判断できなくなります。あわせて、本番で使うエッジハードと撮像構成を確定し、評価をその構成に揃えることが重要だと考えます。

ステップ2：軽い手段から段階的に検証する

圧縮はPTQから始め、重欠陥再現率で合否を見ます。足りなければQAT、次に構造的枝刈りや蒸留へと、一手ずつ進めます。各段階で本番に近い同時負荷・連続運転の条件で速度と精度を測り、効果と副作用を記録します。この記録は、後の再学習・再量子化や顧客監査の場面でも、判断の根拠として役立つと考えます。

ステップ3：更新フローと運用マージンを設計する

モデルは一度作って終わりではなく、欠陥ライブラリの更新に応じて再学習・再量子化を繰り返します。この更新サイクルを最初から運用フローに組み込み、確信度しきい値の再調整や保留判定の人手負荷まで含めて設計しておくことが、現場で長く回るシステムの条件だと考えます。既存設備へのエッジAIレトロフィットのように、後付けで導入する場合は特に、この運用設計の比重が大きくなると考えられます。

現物・現場での検証を前提に

ここまで述べてきたとおり、圧縮・量子化の効果と副作用は、モデル構造・欠陥の性質・ハードウェア・撮像条件に強く依存します。一般論としての使い分けはお伝えできますが、最終的にどこまで圧縮してよいかは、実際のワークと実ラインで確かめるほかないと考えます。Nsightには、元キーエンス画像処理事業部で画像検査に携わった監修者が在籍しており、現物・現場での検証を通じて、精度とレイテンシのどこに線を引くかを一緒に確かめていく進め方を大切にしています。机上の圧縮率や速度比だけで判断せず、まずは小さな検証から始めることを、私たちはおすすめします。エッジ実装やハードウェア選定を含めた相談はハードウェア統合やPoCコンサルティングでも承っています。

― 10 / FAQ

よくある質問

INT8量子化と枝刈り、まずどちらを試すべきですか。

一般的には、構造を変えずに適用でき再学習なしでも試せる量子化（まずPTQ）から始めるのが着手しやすいと考えます。量子化だけで速度・精度の要件を満たせるなら構造には手を入れず、足りない場合に構造的枝刈りや蒸留へ進む、という順序が切り分けやすいと考えます。ただし最適な順序はモデルと欠陥の性質に依存するため、現物での検証が前提になります。

量子化すると精度はどのくらい落ちますか。

低下の程度はモデル構造・欠陥の性質・キャリブレーションの質に強く依存するため、一律の数値はお伝えできません。注意すべきは、平均精度が保たれていても特定の微小欠陥クラスの再現率だけ落ちることがある点です。評価は全体mAPではなく欠陥クラスごと、特に重欠陥の再現率を基準に行うことをおすすめします。

枝刈りしたのにJetsonで速くなりませんでした。なぜですか。

重み単位の非構造的枝刈りでモデルを疎にしても、それを加速するハードウェアやランタイムが揃っていないと、メモリは減っても推論時間はあまり縮まないことがあります。エッジの実速度を狙う場合は、チャネルや層をまとめて落とす構造的枝刈りのほうが密な演算として素直に速くなりやすいと考えられます。

再学習でモデルを更新するたびに量子化もやり直す必要がありますか。

はい、構造や重みが変われば量子化も再実施し、精度を再評価するのが基本だと考えます。そのため、欠陥ライブラリの更新に応じた再学習・再量子化・再評価・しきい値の再調整までを一つの更新フローとして最初から設計しておくことをおすすめします。これを見積もっておかないと運用が回りにくくなります。

PoCでは精度も速度も出たのに本番のエッジで再現しません。

開発機（高性能GPU）で確認した結果が、本番のエッジハードや同時負荷・連続運転の条件で再現しないことはよくあります。複数カメラの合計負荷やサーマルスロットリングが原因のことが多いと考えられます。評価は本番に近いハード・同時負荷・連続運転の状態で行うことが重要で、現物・現ラインでの検証を前提とすることをおすすめします。

エッジ検査モデルの圧縮・量子化──精度を保ったままJetsonで動かすための設計判断