模型选择及优化问题 · PaddlePaddle/PaddleDetection#3212

Repository metrics

Stars: (11,414 stars)
PR merge metrics: (30d に merged PR はありません)

説明

我的需求是识别同一种鱼的不同个体，训练集为连续两日的1分钟时长的视频，测试集为第三日30秒时长的视频，仅凭肉眼观察，难以分辨出不同个体，且采集到的视频鱼的姿态变化不大，配合度也较低，同时也存在鱼缸这样一些背景，我之前用卷积神经网络对整张图片做训练，效果很差，考虑到可能是背景有一些影响，开始采用目标检测算法只对鱼做训练。

首先请问理论上用目标检测比单纯的图像分类正确率会有提升吗。

其次，我选用的 PPYOLOV2 模型，对视频的每一帧都做了标注进行训练，总共有5个类别，16593张训练图片，每张图片只有一个个体，原图是1080P，评估及测试图像的目标尺寸设置为 [640, 640] 和接近原比例的 [640, 352] 我都有尝试，训练迭代几次后，loss 值都在3左右波动，不会有大的下降，那么，

对于这样的训练集，缩放成正方形更利于收敛还是缩放成接近原比例效果更好？
为了丰富数据集，我取了视频的每一帧做训练，但连续帧的差异不大，这种方式丰富的数据集有没有意义？这种选取方式更利于提高模型的泛化能力还是取视频的关键帧做训练效果更好？
最后，还想咨询一下模型的选取问题，目标检测的数据集大多是类别识别，那么对于同一类的个体识别问题，具有同样的适用性吗？或者是有其它方法更适用于这种个体识别的需求？

希望能得到各位开发者及工程师的回复，十分感谢！！！

下面是一张训练图片及其标注。

<?xml version="1.0" encoding="utf-8"?>
<annotation>
	<folder>JPEGImages</folder>
	<filename>001_4_20_15.png</filename>
	<path>/fish_recognition_yolov4/fish/second_select/JPEGImages/001_4_20_15.png</path>
	<source>
		<database>Unknown</database>
	</source>
	<size>
		<width>1920</width>
		<height>1080</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>fish_001</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>335.39923</xmin>
			<ymin>199.92563</ymin>
			<xmax>1770.6204</xmax>
			<ymax>839.81396</ymax>
		</bndbox>
	</object>
</annotation>

コントリビューターガイド

調査方針: 標準的な物体検出ではなく、細粒度分類や再識別手法を試してみてください。個体を区別するためにメトリック学習の使用を検討してください。さらに、トレーニング中に異なるアスペクト比をテストし、フレームサンプリングの影響を評価してください。
技術スタック: python
領域: machine learningai
Issue 種別: 調査
難度: 2
推定時間: 1-2日
活動状況: アクティブ
明確さ: 明確
前提条件: PythonDeep Learning
初心者向け度: 80

Repository metrics

説明

コントリビューターガイド

新着 Easy issues をメールで受け取る。