Nvidia GPU & 算能Sophon TPU 算子耗时分析

1、Nvidia GPU

该分析方法适合onnx模型或trt模型,NV的工具栏较为易用,可使用 trtexec 命令直接输出算子耗时。注意,有些易于优化计算的算子(例如 Conv+Relu 、Conv+BN+Relu),会作为一个算子集计算,此时无法直接读取到每个独立算子的耗时。

首先需要安装Nvidia TensorRT库、CUDA ToolKit(没这俩咋玩呀),然后使用trtexec命令行工具进行推理。

示例命令:

1
trtexec --onnx=pfe+backbone_v12.onnx --loadInputs=input.1 --fp16 --exportProfile=bmap_dbg.json --verbose

其中,--onnx参数指定onnx文件路径,--loadInputs参数指定输入层name,--fp16选项指定启用FP16推理。后面的两个参数为用于分析推理过程,--exportProfile参数用于将每个算子层的耗时及占比信息存入.json文件, --verbose参数用于输出详细日志目录。

阅读更多

解决hexo博客不能显示图床图片问题

刚搭建好了hexo博客,写了一篇带图的文章,结果发现图挂了…之前看博客扫到hexo博客显示本地图片可能会有问题,于是选了图床图片的方式插图,结果还是没能幸免,好在搜索了半天,解决了这个问题,这里做个记录,帮助后面遇到问题的同学。

阅读更多