YOLO V5在瑞芯微板子上部署问题记录汇总
文章目录
YOLO V5训练模型部署到瑞芯微的板子上面,官方是有给出案例和转过详情的。并且也提供了Python版本的推理代码,以及C语言的代码。
但是,对于转换过程中的细节,哪些需要改?怎么改?如何改,和为什么这样改的问题,并没有给出详细的介绍。
于是,本文就是对官方给出部分外的一个补充。这部分都是多次踩过坑的总结,相信会对你的操作和遇到的问题会有较大帮助的。
一、从pytorch的pt到rknn转换
- 第一步: 使用yolov5提供的export.py函数导出yolov5.onnx模型
python3 export.py --weights yolov5s.pt --img-size 640 --include onnx
- 第二步:使用onnxsim简化导出的yolov5.onnx模型
onnxsim是一个基于ONNX规范的工具,通过简化ONNX模型和优化ONNX模型,帮助用户减小模型大小、提高模型的推理速度和减少推理过程中的内存开销。
onnxsim的工作原理是将一个ONNX模型简化成最少的节点,并优化这些节点,以最小化推理过程中的开销。
同时,onnxsim还可以处理支持的神经网络层类型,支持多个平台,例如:CPU,GPU, FPGA等。
onnxsim安装和使用:onnx-simplifier
pip3 install onnxsim
Then:
onnxsim input_onnx_model output_onnx_model
- 第三步:要完全使用rknn提供的部署转换代码,需要根据简化后的onnx模型,选取合适层的输出,以替代以下代码中的‘378’,‘439’和‘500’,如下图onnx例子中的’onnx::Reshape_446’,‘onnx::Reshape_484’,‘onnx::Reshape_522’。(这三个name,可能都是不一样的,是什么就填什么即可)
# Load ONNX model
print('--> Loading model')
ret = rknn.load_onnx(model=ONNX_MODEL, outputs=['onnx::Reshape_446', 'onnx::Reshape_484', 'onnx::Reshape_522'])
if ret != 0:
print('Load yolov5 failed!')
exit(ret)
print('done')
采用Netron打开的onnx文件,如下:
疑问:为什么不用最后合并后的输出结果?
因为,最后的形状不固定导致的,有可能5个框,有可能10个框。输出模型到固定大小,后续操作放到后处理,目的是为了加快模型的npu上的推理速度(这里是我的理解,不一定正确,欢迎补充)
在PyTorch中,神经网络的输出形状通常是根据输入形状来自动计算的,而在 ONNX 中,输出形状需要在转换时进行显式指定,这是由于 ONNX 的静态图执行模型与 PyTorch 的动态图执行模型不同所致。
当你将PyTorch模型转换为 ONNX 模型时,你需要为 ONNX 模型中的每个输出定义固定的形状,以便在模型执行时为其分配正确的内存空间。如果输出形状不固定,那么 ONNX 运行时就需要在运行时动态调整输出形状,这将使得模型在部署时的性能受到影响。
因此,在转换 PyTorch 模型为 ONNX 模型时,你需要手动指定每个输出的固定形状,以便在执行时能够顺利运行。
Yolo v5的输出格式一般为a × b × c × 85的形式,其中:
- abc表示框的数目
- 85则涵盖框的位置信息(xc,yc,w,h)、前景的置信度Pc和80个类别的预测条件概率c1,…,c80。(4+1+80,无背景类)
如果是你自己的模型,可能是只有3个目标类别,那么最后就是4+1+3=8,这个值记得在onnx模型中查看到。
二、需要注意事项
2.1 设定anchor值
anchor的设定,在训练yolo v5模型时候,是可以设定自动适应,采用聚类的方式,通过标注的目标框的大小,给出anchor的值。在train.py中,noaotoanchor的默认为False,如果设定为True,则会使用默认的anchor设定。
所以,如果经过autoanchor,给出了新的anchor设定,那么在推理和转完rknn后的设定,都需要与之相匹配的anchor,这个很重要。
为什么官方和很多博客,都没有注意到这个问题呢?因为大多数情况下,aotoanchor并没有发挥作用。都是使用了默认的,导致很多人即便没有注意到这个问题,最后的结果也不差。
但是,如果是不一样的,结果就会比较差,这个值就需要对应的做修改了。所以这里一定需要注意,确保设定的没有错误。
下面介绍两种查询训练好的模型对应anchor值的两种方式。一种是在训练阶段观察,看看是否自动设定了新的anchor,另一种是在存储好的模型里面查看,也是可以读取到的。
2.1.1 训练阶段记录
如果在训练阶段,你已经关注到autoAnchor的输出结果,可以在这里直接进行记录,在terminal打印的内容,大致如下:
AutoAnchor: 3.60 anchors/target, 0.974 Best Possible Recall (BPR). Anchors are a poor fit to dataset ⚠, attempting to improve...
AutoAnchor: WARNING ⚠ Extremely small objects found: 764 of 27545 labels are <3 pixels in size
AutoAnchor: Running kmeans for 9 anchors on 27522 points...
AutoAnchor: Evolving anchors with Genetic Algorithm: fitness = 0.8052: 100%|██████████| 1000/1000 00:10
AutoAnchor: thr=0.25: 0.9996 best possible recall, 5.11 anchors past thr
AutoAnchor: n=9, img_size=640, metric_all=0.358/0.805-mean/best, past_thr=0.532-mean: 5,5, 7,8, 11,11, 17,17, 28,28, 41,37, 56,56, 79,82, 143,140
2.1.2 pt 文件查询记录
查询autoAnchor记录到.pt文件内的anchor设定,如下:
import torch
import sys
sys.path.append("path/yolov5-master")
weights = 'best.pt'
model = torch.load(str(weights[0] if isinstance(weights, list) else weights), map_location='cpu')
model1 = model['ema' if model.get('ema') else 'model']
model2 = model1.float().fuse().model.state_dict()
for k,v in model2.items():
if 'anchor' in k:
# print(k)
# print(v)
print(v.numpy().flatten().tolist())
打印结果:
Fusing layers...
[0.54345703125, 0.58251953125, 0.8525390625, 0.88818359375, 1.353515625, 1.318359375, 1.0859375, 1.0380859375, 1.75390625, 1.705078125, 2.38671875, 2.462890625, 1.7421875, 1.6787109375, 2.578125, 2.458984375, 3.904296875, 3.75]
[4.34765625, 4.66015625, 6.8203125, 7.10546875, 10.828125, 10.546875, 17.375, 16.609375, 28.0625, 27.28125, 38.1875, 39.40625, 55.75, 53.71875, 82.5, 78.6875, 124.9375, 120.0]
YOLOv5m summary: 308 layers, 21037791 parameters, 0 gradients
第二行是真的,需要取整。第一行…
经过我的发现,如果你打印的anchor就一行,那么可能是默认的anchor(默认使用COCO数据集的anchor),就是good fit to dataset,也就是默认的:
[[10, 13], [16, 30], [33, 23],
[30, 61], [62, 45],[59, 119],
[116, 90], [156, 198], [373, 326]]
2.2 rk3588 推理性能查看
如何查看,可以去看第一篇的文章,在预测推理部分有几行代码是用于查询这个信息的。在官方的文档里面,也能看到。
其中,yolo v5m 量化前性能:
推理性能:
Performance
Total Time(us): 194162
FPS: 5.15
占用内存:
Memory Profile Info Dump
NPU model memory detail(bytes):
Total Weight Memory: 39.83 MiB
Total Internal Tensor Memory: 19.50 MiB
Total Memory: 59.33 MiB
量化后性能
推理性能:
Performance
Total Time(us): 137508
FPS: 7.27
占用内存:
Memory Profile Info Dump
NPU model memory detail(bytes):
Total Weight Memory: 20.03 MiB
Total Internal Tensor Memory: 8.75 MiB
Total Memory: 28.78 MiB
总的来说:
- 模型时间效率上,量化后能降低30%,194ms到137ms;
- 占用内存上,量化后减少50%,59Mib到29Mib;
三、C/C++ API部署
目标检测 YOLOv5 - 基于 瑞芯微 Rockchip RKNN C API 实现 —————- github代码
yolov8 瑞芯微 RKNN 的 C++部署——————- github代码
上述两个参考链接,基本囊括了以下几个部分:
- rknn模型转换
- Python rknn推理
- c/c++ rknn推理( YOLO v5部分是瑞芯微官方开放的代码)
如果你也是参考瑞芯微官方的C API代码,那么替换上你的模型后,有几个地方需要修改:
1.输入图像大小要改
2.anchor尺寸要改const int anchor0[6] = {4, 5, 7, 7, 11, 11};
const int anchor1[6] = {17, 17, 28, 27, 38, 39};
const int anchor2[6] = {56, 54, 83, 79, 125, 120};
3.前景box阈值修改const float box_conf_threswin = 0.25;
4.nms阈值修改const float nms_threswin = 0.1;
5.类别置信度重新调整objProbs.push_back(current_prob*box_confidence);
6.针对各个类,采用不同的阈值(待补充,这部分瑞芯微未采用这种二次过滤方式)
尤其是anchor这里,如果设定的不对,那么输出的结果就会非常的奇怪。如果是对的,那么差异性相对会小很多(和本地pt测试结果对比)。
四、总结
本文是对YOLO V5模型部署到瑞芯微板子上遇到的问题汇总。当然可能还会存在其他的更多问题,但是暂时还没有遇到,所以后面如果还会遇到什么问题,还会补充到这里。
- 分享
- 举报
-
浏览量:567次2023-05-31 13:58:11
-
浏览量:1663次2024-01-18 18:05:38
-
浏览量:1830次2021-12-30 13:55:15
-
浏览量:2237次2023-08-22 10:39:41
-
浏览量:9248次2020-12-03 17:46:05
-
浏览量:1747次2024-01-22 17:46:51
-
浏览量:1484次2024-02-05 10:41:25
-
浏览量:1022次2024-02-18 16:38:33
-
浏览量:7793次2024-01-04 14:35:55
-
浏览量:1542次2023-10-24 18:27:46
-
浏览量:3964次2021-04-02 09:51:10
-
浏览量:2932次2021-11-20 15:11:57
-
浏览量:1842次2022-12-16 16:27:02
-
浏览量:1975次2023-09-19 16:02:04
-
浏览量:12695次2021-02-26 11:19:50
-
浏览量:1629次2024-02-04 17:13:47
-
浏览量:2439次2024-02-28 15:36:09
-
浏览量:1441次2023-11-14 13:55:50
-
浏览量:2983次2022-12-16 09:16:42
-
广告/SPAM
-
恶意灌水
-
违规内容
-
文不对题
-
重复发帖
技术不加糖
感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~
举报类型
- 内容涉黄/赌/毒
- 内容侵权/抄袭
- 政治相关
- 涉嫌广告
- 侮辱谩骂
- 其他
详细说明