AD-DINOv3如何通过异常感知校准提升DINOv3的零样本异常检测效果?

2026-05-23 09:5268阅读0评论SEO优化
  • 内容介绍
  • 文章标签
  • 相关推荐

评估指标遵循零样本异常检测领域惯例,我们采用多种指标进行异常定位评估。 归根结底。 具体而言, 像素级异常定位所有领域的平均性能提供整体评估。

AD-DINOv3:零样本异常检测的

就这样吧... 论文首次将DINOv3这一强大的自监督视觉基础模型作为视觉主干网络引入到零样本异常检测(Zero-Shot Anomaly Detection, ZSAD) 领域。这为ZSAD提供了一种新的思路和强大的特征提取器。

AD-DINOv3:能力

工业图像基准测试对比

别怕... 如表2所示,我们在MVTec AD数据集上逐步解构AD-DINOv3以验证各组件贡献。基线方法直接对原始DINOv3图像块令牌进行L2归一化, 沿通道维度求平均后上采样至图像尺寸作为异常热力图,获得76.20%的AUROC和20.49%的,证实单一自监督特征无法可靠区分正常与异常区域。

方法 MVTec AD VisA
WinCLIP 85.6% 79.6% 14.8%
AnomalyCLIP 90.5% 95.4% 28.3%
AD-DINOv3 91.6% 95.6% 37.7%

实现细节实验采用Meta AI发布的ViT-L/16架构的预训练DINOv3作为默认图像编码器,文本编码器使用预训练CLIP生成文本嵌入。所有输入图像统一调整为512×512分辨率。DINOv3骨干网络包含24个Transformer层, 我们将其划分为四个阶段,分别从第6、12、18和24层提取图像块嵌入。模型训练周期为10轮,批量大小为64,使用Adam优化器,初始学习率设为1×10⁻⁴。所有实验均在单张NVIDIA RTX A6000 GPU上完成。

AACM模块的重要性

💡 AACM如何重塑异常检测?

AACM的提出解决了CLS令牌偏向通用前景语义的问题。

有啥说啥... 通过显式引导CLS令牌关注异常区域而非通用前景对象。

增强了模型对细微缺陷的感知能力。

💡 未来方向与使命

无语了... 工业图像基准测试对比    如表1所示,AD-DINOv3在工业基准测试中实现了最先进的性能。在VisA数据集上, 我们的方法达到95.6%的AUROC和37.7%的,显著超越WinCLIP和AnomalyCLIP等现有方法。在BTAD和MPDD数据集上, 本方法分别取得93.5%和96.2%的AUROC分数, consistently outperforming AdaCLIP and APRILGAN。在广泛使用的MVTec AD数据集上,AD-DINOv3以91.6%的AUROC和50.1%的创下新纪录。

# 示例代码展示了如何使用DINOv3进行特征提取 import torch from dinov3 import dinov3vitl16 # 加载预训练的DINOv3模型 model = dinov3vitl16 # 输入图像预处理 input_image = torch.randn # 获取图像特征 features = model print

🧠 解读核心技术创新:跨模态对比学习与异常感知校准模块

DINOv3等预训练模型的表征存在一个固有倾向:更关注全局的、 高级别的物体语义而常常会忽略细微的、局部的异常特征。为了解决这个问题, 论文创新性地提出了AACM - Anomaly-Aware Calibration Module.

🔍 代码解析:DINOv3实现细节探究


def _make_dinov3_vit_model_arch(
    patch_size: int = 16,
    compact_arch_name: str = "vitb",
):
   if "plus" in compact_arch_name:
       model_arch = compact_arch_
   else:
       model_arch = f"{compact_arch_name}{patch_size}"
   return model_arch
...
...
...
model = DinoVisionTransformer
if pretrained:
   url = _make_dinov3_vit_model_url
   state_dict = _state_dict_from_url
   _state_dict
return model
框架组件 功能描述
DINOv3骨干网络 提取多层次视觉特征,为后续适配提供基础表征
轻量级适配器 弥合预训练特征与目标任务间的领域差距,通过可学习变换实现表征重校准
跨模态对比学习 显式对齐视觉与文本分支,增强多模态表征一致性并提升类别可分性
AACM模块 引导CLS令牌关注细粒度异常区域而非通用语义,有效增强判别能力并抑制背景噪声
**性能指标对比**
数据集 AUROC提升幅度
MVTec AD +15.4%
VisA +16.0%
ClinicDB +7.5%
ISIC +5.2%

图1:红点标注的图像块与所有其他图像块间的余弦相似度图谱。左图为真实标注,中间对应原始DINOv3后来啊,右侧为我们提出的AD-DINOv3后来啊。上下两行分别展示了对正常区域和异常区域的注意力分布。与原始DINOv3相比, AD-DINOv3有效减少了正常区域中的伪响应,更显著且连贯地突出异常区域,并增强正常与异常区域间的区分度,我明白了。。

图2:ZSAD任务中不同方法的定性后来啊对比。工业领域;医疗领域。 图3,柱状图直观地展示了不同数据集上的性能表现对比。
| 方法名称 | AUROC | | AUROC | | | --- | --- | --- | --- | --- | | WinCLIP | 85.4% | 12.5% | 78.9% | 35.6% | | APRIL-GAN | 88.7% | 25.4% | 81.2% | 39.8% | | AnomalyCLIP | **90.2%** | 30.7% | **84.5** | **42..9** | | **AD-DIN03** | **94..8%** | **38..4%** | **89..0** | **54...8** |

评估指标遵循零样本异常检测领域惯例,我们采用多种指标进行异常定位评估。 归根结底。 具体而言, 像素级异常定位所有领域的平均性能提供整体评估。

AD-DINOv3:零样本异常检测的

就这样吧... 论文首次将DINOv3这一强大的自监督视觉基础模型作为视觉主干网络引入到零样本异常检测(Zero-Shot Anomaly Detection, ZSAD) 领域。这为ZSAD提供了一种新的思路和强大的特征提取器。

AD-DINOv3:能力

工业图像基准测试对比

别怕... 如表2所示,我们在MVTec AD数据集上逐步解构AD-DINOv3以验证各组件贡献。基线方法直接对原始DINOv3图像块令牌进行L2归一化, 沿通道维度求平均后上采样至图像尺寸作为异常热力图,获得76.20%的AUROC和20.49%的,证实单一自监督特征无法可靠区分正常与异常区域。

方法 MVTec AD VisA
WinCLIP 85.6% 79.6% 14.8%
AnomalyCLIP 90.5% 95.4% 28.3%
AD-DINOv3 91.6% 95.6% 37.7%

实现细节实验采用Meta AI发布的ViT-L/16架构的预训练DINOv3作为默认图像编码器,文本编码器使用预训练CLIP生成文本嵌入。所有输入图像统一调整为512×512分辨率。DINOv3骨干网络包含24个Transformer层, 我们将其划分为四个阶段,分别从第6、12、18和24层提取图像块嵌入。模型训练周期为10轮,批量大小为64,使用Adam优化器,初始学习率设为1×10⁻⁴。所有实验均在单张NVIDIA RTX A6000 GPU上完成。

AACM模块的重要性

💡 AACM如何重塑异常检测?

AACM的提出解决了CLS令牌偏向通用前景语义的问题。

有啥说啥... 通过显式引导CLS令牌关注异常区域而非通用前景对象。

增强了模型对细微缺陷的感知能力。

💡 未来方向与使命

无语了... 工业图像基准测试对比    如表1所示,AD-DINOv3在工业基准测试中实现了最先进的性能。在VisA数据集上, 我们的方法达到95.6%的AUROC和37.7%的,显著超越WinCLIP和AnomalyCLIP等现有方法。在BTAD和MPDD数据集上, 本方法分别取得93.5%和96.2%的AUROC分数, consistently outperforming AdaCLIP and APRILGAN。在广泛使用的MVTec AD数据集上,AD-DINOv3以91.6%的AUROC和50.1%的创下新纪录。

# 示例代码展示了如何使用DINOv3进行特征提取 import torch from dinov3 import dinov3vitl16 # 加载预训练的DINOv3模型 model = dinov3vitl16 # 输入图像预处理 input_image = torch.randn # 获取图像特征 features = model print

🧠 解读核心技术创新:跨模态对比学习与异常感知校准模块

DINOv3等预训练模型的表征存在一个固有倾向:更关注全局的、 高级别的物体语义而常常会忽略细微的、局部的异常特征。为了解决这个问题, 论文创新性地提出了AACM - Anomaly-Aware Calibration Module.

🔍 代码解析:DINOv3实现细节探究


def _make_dinov3_vit_model_arch(
    patch_size: int = 16,
    compact_arch_name: str = "vitb",
):
   if "plus" in compact_arch_name:
       model_arch = compact_arch_
   else:
       model_arch = f"{compact_arch_name}{patch_size}"
   return model_arch
...
...
...
model = DinoVisionTransformer
if pretrained:
   url = _make_dinov3_vit_model_url
   state_dict = _state_dict_from_url
   _state_dict
return model
框架组件 功能描述
DINOv3骨干网络 提取多层次视觉特征,为后续适配提供基础表征
轻量级适配器 弥合预训练特征与目标任务间的领域差距,通过可学习变换实现表征重校准
跨模态对比学习 显式对齐视觉与文本分支,增强多模态表征一致性并提升类别可分性
AACM模块 引导CLS令牌关注细粒度异常区域而非通用语义,有效增强判别能力并抑制背景噪声
**性能指标对比**
数据集 AUROC提升幅度
MVTec AD +15.4%
VisA +16.0%
ClinicDB +7.5%
ISIC +5.2%

图1:红点标注的图像块与所有其他图像块间的余弦相似度图谱。左图为真实标注,中间对应原始DINOv3后来啊,右侧为我们提出的AD-DINOv3后来啊。上下两行分别展示了对正常区域和异常区域的注意力分布。与原始DINOv3相比, AD-DINOv3有效减少了正常区域中的伪响应,更显著且连贯地突出异常区域,并增强正常与异常区域间的区分度,我明白了。。

图2:ZSAD任务中不同方法的定性后来啊对比。工业领域;医疗领域。 图3,柱状图直观地展示了不同数据集上的性能表现对比。
| 方法名称 | AUROC | | AUROC | | | --- | --- | --- | --- | --- | | WinCLIP | 85.4% | 12.5% | 78.9% | 35.6% | | APRIL-GAN | 88.7% | 25.4% | 81.2% | 39.8% | | AnomalyCLIP | **90.2%** | 30.7% | **84.5** | **42..9** | | **AD-DIN03** | **94..8%** | **38..4%** | **89..0** | **54...8** |