RoLID-11K：行车记录仪路边垃圾数据集，你了解多少？

2026-04-27 21:5657阅读0评论建站教程

内容介绍
文章标签
相关推荐

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

挖野菜。中极端小目标占比超80%与显著长尾分布特性。

现有的垃圾检测视觉数据集专注于街道级静态图像、航空场景或水生环境,并未反映行车记录仪视频的独特特性,其中垃圾表现为极小、稀疏且嵌入在杂乱道路边缘背景中的物体.MFDA-YOLO:一种用于无人机小目标检测的多尺度特征融合与动态对齐网络.RoLID-11K:一个用于小物体道路垃圾检测的行车记录仪数据集.，没耳听。

我们在配备 Intel Xeon Silver 4216 CPU、256GB RAM 和 NVIDIA H200 GPU的工作站上进行所you实验。模型训练使用其框架提供的默认设置，以确保可比性和可复现性。就这样吧... Transformer 模型使用 MMDetection 实现，而 YOLO 系列模型、RT-DETR 和 DEIMv2 使用 Ultralytics 框架。

我狂喜。推理延迟使用批次大小为 1 在整个测试集上测量，以每帧平均运行时间表示。这些指标允许直接比较精度-效率的权衡。

对与发布首个RoLID-11K，涵盖超1.1万标注图像，共勉。。

到头来数据集包含 11,565 张图像，划分为 7990 张训练图像、1201 张验证图像和 2374 张测试图像。RoLID-11K呈现出目标检测面临的多个挑战性特征。每张图像中的目标数量遵循强烈的长尾分布——大多数图像包含一至三个实例。目标尺寸极小：边界框面积分布的高峰出现在 log10 ≈ 2.4–2.8附近，这意味着垃圾通常只占据每帧画面的极小部分，摸鱼。。

阅读全文