help wanted
説明
我的需求是识别同一种鱼的不同个体,训练集为连续两日的1分钟时长的视频,测试集为第三日30秒时长的视频,仅凭肉眼观察,难以分辨出不同个体,且采集到的视频鱼的姿态变化不大,配合度也较低,同时也存在鱼缸这样一些背景,我之前用卷积神经网络对整张图片做训练,效果很差,考虑到可能是背景有一些影响,开始采用目标检测算法只对鱼做训练。
- 首先请问理论上用目标检测比单纯的图像分类正确率会有提升吗。
其次,我选用的 PPYOLOV2 模型,对视频的每一帧都做了标注进行训练,总共有5个类别,16593张训练图片,每张图片只有一个个体,原图是1080P,评估及测试图像的目标尺寸设置为 [640, 640] 和接近原比例的 [640, 352] 我都有尝试,训练迭代几次后,loss 值都在3左右波动,不会有大的下降,那么,
- 对于这样的训练集,缩放成正方形更利于收敛还是缩放成接近原比例效果更好?
- 为了丰富数据集,我取了视频的每一帧做训练,但连续帧的差异不大,这种方式丰富的数据集有没有意义?这种选取方式更利于提高模型的泛化能力还是取视频的关键帧做训练效果更好?
- 最后,还想咨询一下模型的选取问题,目标检测的数据集大多是类别识别,那么对于同一类的个体识别问题,具有同样的适用性吗?或者是有其它方法更适用于这种个体识别的需求?
希望能得到各位开发者及工程师的回复,十分感谢!!!
- 下面是一张训练图片及其标注。

<?xml version="1.0" encoding="utf-8"?>
<annotation>
<folder>JPEGImages</folder>
<filename>001_4_20_15.png</filename>
<path>/fish_recognition_yolov4/fish/second_select/JPEGImages/001_4_20_15.png</path>
<source>
<database>Unknown</database>
</source>
<size>
<width>1920</width>
<height>1080</height>
<depth>3</depth>
</size>
<segmented>0</segmented>
<object>
<name>fish_001</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>335.39923</xmin>
<ymin>199.92563</ymin>
<xmax>1770.6204</xmax>
<ymax>839.81396</ymax>
</bndbox>
</object>
</annotation>