RoLID-11K:行车记录仪路边垃圾数据集,你了解多少?
- 内容介绍
- 文章标签
- 相关推荐
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

挖野菜。 中极端小目标占比超80%与显著长尾分布特性。
现有的垃圾检测视觉数据集专注于街道级静态图像、 航空场景或水生环境,并未反映行车记录仪视频的独特特性,其中垃圾表现为极小、稀疏且嵌入在杂乱道路边缘背景中的物体.MFDA-YOLO:一种用于无人机小目标检测的多尺度特征融合与动态对齐网络.RoLID-11K:一个用于小物体道路垃圾检测的行车记录仪数据集.,没耳听。
我们在配备 Intel Xeon Silver 4216 CPU、256GB RAM 和 NVIDIA H200 GPU的工作站上进行所you实验。模型训练使用其框架提供的默认设置,以确保可比性和可复现性。 就这样吧... Transformer 模型使用 MMDetection 实现, 而 YOLO 系列模型、RT-DETR 和 DEIMv2 使用 Ultralytics 框架 。
我狂喜。 推理延迟使用批次大小为 1 在整个测试集上测量,以每帧平均运行时间表示。这些指标允许直接比较精度-效率的权衡。
对与发布首个RoLID-11K,涵盖超1.1万标注图像,共勉。。
到头来数据集包含 11,565 张图像, 划分为 7990 张训练图像、1201 张验证图像和 2374 张测试图像。RoLID-11K呈现出目标检测面临的多个挑战性特征。每张图像中的目标数量遵循强烈的长尾分布——大多数图像包含一至三个实例。目标尺寸极小:边界框面积分布的高峰出现在 log10 ≈ 2.4–2.8附近 ,这意味着垃圾通常只占据每帧画面的极小部分,摸鱼。。
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

挖野菜。 中极端小目标占比超80%与显著长尾分布特性。
现有的垃圾检测视觉数据集专注于街道级静态图像、 航空场景或水生环境,并未反映行车记录仪视频的独特特性,其中垃圾表现为极小、稀疏且嵌入在杂乱道路边缘背景中的物体.MFDA-YOLO:一种用于无人机小目标检测的多尺度特征融合与动态对齐网络.RoLID-11K:一个用于小物体道路垃圾检测的行车记录仪数据集.,没耳听。
我们在配备 Intel Xeon Silver 4216 CPU、256GB RAM 和 NVIDIA H200 GPU的工作站上进行所you实验。模型训练使用其框架提供的默认设置,以确保可比性和可复现性。 就这样吧... Transformer 模型使用 MMDetection 实现, 而 YOLO 系列模型、RT-DETR 和 DEIMv2 使用 Ultralytics 框架 。
我狂喜。 推理延迟使用批次大小为 1 在整个测试集上测量,以每帧平均运行时间表示。这些指标允许直接比较精度-效率的权衡。
对与发布首个RoLID-11K,涵盖超1.1万标注图像,共勉。。
到头来数据集包含 11,565 张图像, 划分为 7990 张训练图像、1201 张验证图像和 2374 张测试图像。RoLID-11K呈现出目标检测面临的多个挑战性特征。每张图像中的目标数量遵循强烈的长尾分布——大多数图像包含一至三个实例。目标尺寸极小:边界框面积分布的高峰出现在 log10 ≈ 2.4–2.8附近 ,这意味着垃圾通常只占据每帧画面的极小部分,摸鱼。。

