Products
GG网络技术分享 2026-03-13 14:22 1
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

挖野菜。 中极端小目标占比超80%与显著长尾分布特性。
现有的垃圾检测视觉数据集专注于街道级静态图像、 航空场景或水生环境,并未反映行车记录仪视频的独特特性,其中垃圾表现为极小、稀疏且嵌入在杂乱道路边缘背景中的物体.MFDA-YOLO:一种用于无人机小目标检测的多尺度特征融合与动态对齐网络.RoLID-11K:一个用于小物体道路垃圾检测的行车记录仪数据集.,没耳听。
我们在配备 Intel Xeon Silver 4216 CPU、256GB RAM 和 NVIDIA H200 GPU的工作站上进行所you实验。模型训练使用其框架提供的默认设置,以确保可比性和可复现性。 就这样吧... Transformer 模型使用 MMDetection 实现, 而 YOLO 系列模型、RT-DETR 和 DEIMv2 使用 Ultralytics 框架 。
我狂喜。 推理延迟使用批次大小为 1 在整个测试集上测量,以每帧平均运行时间表示。这些指标允许直接比较精度-效率的权衡。
对与发布首个RoLID-11K,涵盖超1.1万标注图像,共勉。。
到头来数据集包含 11,565 张图像, 划分为 7990 张训练图像、1201 张验证图像和 2374 张测试图像。RoLID-11K呈现出目标检测面临的多个挑战性特征。每张图像中的目标数量遵循强烈的长尾分布——大多数图像包含一至三个实例。目标尺寸极小:边界框面积分布的高峰出现在 log10 ≈ 2.4–2.8附近 ,这意味着垃圾通常只占据每帧画面的极小部分,摸鱼。。
进一步显示了高度的可变性——忒别是测试集呈现出多样化的目标形状,增加了稳健检测的难度!再说说!
🚀核心专长与技术创新
本文贡献如下:
#RoLIDdatasetbuildflow_chart BEGIN
DATASOURCE = "UK Lincolnshire dashcam videos" #采集来源
VIDEORESOLUTION = "4K" #视频分辨率
FRAMEEXTRACTION = "OpenCV" #帧提取工具
FRAMEDOWNSIZE = "to 720P" #降低到720P 为了存储和标注方便!真的方便吗?好吧…谁知道呢?
PUA。 ANNOTATIONTOOL = "VGG Image Annotator" #标注工具 我个人梗喜欢LabelImg!单是团队用这个…那就用吧!QAQ
ANNOTATIONCLASS = #类别就一个“垃圾”!真简单!单是识别起来好难啊…唉…
DATASET_SPLIT= {"train":7990,"val":1201,"test":2374}
OBJECTSNUMBER="Long Tail Distribution!"#对象数量分布呈长尾分布!!!重要的事情说三遍!!!!!
OBJECTSSIZE="Small Object Dominance "# 小目标的占比超过80%! 至于吗? !!所yi说要针对小目标优化算法!!!!!重要的事情说三遍!!!!!!!!!!!!!!!!!
END #流程结束
| 型号 | AP50 | AP50:95 | 推理速度 |
|---|---|---|---|
| YOLOv8 | 68.3 | 45.7 | 0.8 |
| YOLOv12 | 72.5 | 48.2 | 0.9 |
| CO DETR | 78.6 | 56.3 | 45.2 |
代码语言 txt
Demand feedback