NPU

定义

NPU（Neural Processing Unit，神经网络处理单元）是专用于深度学习推理的加速芯片，相比通用 CPU/GPU 在卷积、矩阵运算等 AI 负载上能效更高。适用于边缘侧 Inference at the Edge，支持 YOLO、ResNet、MobileNet 等主流架构，单帧推理时延可低于 50ms。模型通常经 ONNX 转换后部署，配合 TensorRT 等优化可进一步提升推理速度。

技术特性

NPU 采用专用矩阵运算单元、低精度量化（INT8/FP16）支持，能效比可达 GPU 数倍。典型产品包括华为昇腾、寒武纪、瑞芯微 RK 系列、晶晨等。支持 ONNX、TensorFlow Lite、Caffe 等模型格式。边缘 AI 网关集成 NPU 可本地运行目标检测、分类、分割，减少云端传输与延迟，适用于工业视觉、安防、缺陷检测等 IIoT 场景。

与 GPU 对比

GPU（如 NVIDIA Jetson）通用性强、生态成熟、支持 TensorRT 等优化；NPU 能效更高、成本可控、适合大批量边缘部署。选型需考虑模型兼容性、推理性能、功耗、成本。工业场景中，轻量级模型（YOLOv5s、MobileNet）多采用 NPU；复杂模型或需多模型并行时可选 GPU。

定义

技术特性

与 GPU 对比

相关术语