定义
NPU(Neural Processing Unit,神经网络处理单元)是专用于深度学习推理的加速芯片,相比通用 CPU/GPU 在卷积、矩阵运算等 AI 负载上能效更高。适用于边缘侧 Inference at the Edge,支持 YOLO、ResNet、MobileNet 等主流架构,单帧推理时延可低于 50ms。模型通常经 ONNX 转换后部署,配合 TensorRT 等优化可进一步提升推理速度。
技术特性
NPU 采用专用矩阵运算单元、低精度量化(INT8/FP16)支持,能效比可达 GPU 数倍。典型产品包括华为昇腾、寒武纪、瑞芯微 RK 系列、晶晨等。支持 ONNX、TensorFlow Lite、Caffe 等模型格式。边缘 AI 网关集成 NPU 可本地运行目标检测、分类、分割,减少云端传输与延迟,适用于工业视觉、安防、缺陷检测等 IIoT 场景。
与 GPU 对比
GPU(如 NVIDIA Jetson)通用性强、生态成熟、支持 TensorRT 等优化;NPU 能效更高、成本可控、适合大批量边缘部署。选型需考虑模型兼容性、推理性能、功耗、成本。工业场景中,轻量级模型(YOLOv5s、MobileNet)多采用 NPU;复杂模型或需多模型并行时可选 GPU。