TensorRT

定义

TensorRT 是 NVIDIA 推出的深度学习推理优化引擎，通过 INT8 量化、层融合、内核自动调优等技术，可将推理速度提升 2～3 倍，在保持精度的前提下显著降低算力需求。支持 ONNX 模型导入，适用于 Jetson、数据中心 GPU 等 NVIDIA 硬件。配合 GPU 边缘设备，可实现工业视觉、缺陷检测等场景的高效推理。

优化技术

TensorRT 将 ONNX、TensorFlow、PyTorch 等模型转换为优化后的引擎：层融合减少 kernel 启动开销；精度校准（INT8）在精度损失可控下提速；内核自动调优选择最优实现；动态 shape 支持可变输入。输出为 .engine 或 .plan 文件，推理时加载执行。Jetson 系列边缘设备常用 TensorRT 实现 YOLO、ResNet 等模型的高效推理。

与 NPU 对比

NPU 为专用 AI 芯片，能效高、成本可控；TensorRT 运行于 NVIDIA GPU，生态成熟、支持广泛。工业边缘 AI 选型：NVIDIA Jetson + TensorRT 适合需要强兼容性、多模型场景；NPU 适合大批量、对成本敏感的场景。两者均可配合 ONNX 模型部署。

应用场景

工业视觉缺陷检测、目标检测、分类；安防人脸识别、行为分析；自动驾驶感知。边缘 AI 网关采用 Jetson + TensorRT 可本地运行复杂模型，降低延迟与带宽。

定义

优化技术

与 NPU 对比

应用场景

相关术语