Nvidia GPU & 算能Sophon TPU 算子耗时分析
1、Nvidia GPU
该分析方法适合onnx模型或trt模型,NV的工具栏较为易用,可使用 trtexec 命令直接输出算子耗时。注意,有些易于优化计算的算子(例如 Conv+Relu 、Conv+BN+Relu),会作为一个算子集计算,此时无法直接读取到每个独立算子的耗时。
首先需要安装Nvidia TensorRT库、CUDA ToolKit(没这俩咋玩呀),然后使用trtexec命令行工具进行推理。
示例命令:
1 | trtexec --onnx=pfe+backbone_v12.onnx --loadInputs=input.1 --fp16 --exportProfile=bmap_dbg.json --verbose |
其中,--onnx
参数指定onnx文件路径,--loadInputs
参数指定输入层name,--fp16
选项指定启用FP16推理。后面的两个参数为用于分析推理过程,--exportProfile
参数用于将每个算子层的耗时及占比信息存入.json文件, --verbose
参数用于输出详细日志目录。