TensorRT

NVIDIA 推理优化引擎

定义

TensorRT 是 NVIDIA 推出的深度学习推理优化引擎,通过 INT8 量化、层融合、内核自动调优等技术,可将推理速度提升 2~3 倍,在保持精度的前提下显著降低算力需求。支持 ONNX 模型导入,适用于 Jetson、数据中心 GPU 等 NVIDIA 硬件。配合 GPU 边缘设备,可实现工业视觉、缺陷检测等场景的高效推理。

优化技术

TensorRT 将 ONNX、TensorFlow、PyTorch 等模型转换为优化后的引擎:层融合减少 kernel 启动开销;精度校准(INT8)在精度损失可控下提速;内核自动调优选择最优实现;动态 shape 支持可变输入。输出为 .engine 或 .plan 文件,推理时加载执行。Jetson 系列边缘设备常用 TensorRT 实现 YOLO、ResNet 等模型的高效推理。

与 NPU 对比

NPU 为专用 AI 芯片,能效高、成本可控;TensorRT 运行于 NVIDIA GPU,生态成熟、支持广泛。工业边缘 AI 选型:NVIDIA Jetson + TensorRT 适合需要强兼容性、多模型场景;NPU 适合大批量、对成本敏感的场景。两者均可配合 ONNX 模型部署。

应用场景

工业视觉缺陷检测、目标检测、分类;安防人脸识别、行为分析;自动驾驶感知。边缘 AI 网关采用 Jetson + TensorRT 可本地运行复杂模型,降低延迟与带宽。

相关术语

返回硬件类知识库