深度学习入门,数据清洗时如何避免常见陷阱?
- 内容介绍
- 文章标签
- 相关推荐
深度学习入门,数据清洗时如何避免常见陷阱?这是一个令人头疼的问题!很多初学者在训练模型时 会遇到各种各样的问题,比如训练集上loss下降、acc还能凑合,但验证集acc时好时坏、甚至比随机还差。这时候,你是否会怀疑是数据出了问题,希望大家...?
常见的数据陷阱
在深度学习中,数据是模型的基础。如果数据出了问题,模型的效果就会大打折扣。 还行。 下面我们来看看一些常见的数据陷阱。

Normalize的mean/std写成了0–255标度
这个问题很常见,特别是在直接复制某些检测/分割配置时。代码语言:python
imgs, _ = next) # , float32
print.item, .item,
.item, .item)
imgs_val, _ = next)
print.item, imgs_.item,
imgs_.item, imgs_.item)
要我说... 直觉解释:ToTensor已把像素缩放到;再用0–255的mean/std去标准化, 后来啊几乎把所有像素推到接近一个常数,通道方差极小 → 可学习信号被“压扁”。更糟糕的是验证集没Normalize,分布与训练完全不匹配。
深度学习入门,数据清洗时如何避免常见陷阱?这是一个令人头疼的问题!很多初学者在训练模型时 会遇到各种各样的问题,比如训练集上loss下降、acc还能凑合,但验证集acc时好时坏、甚至比随机还差。这时候,你是否会怀疑是数据出了问题,希望大家...?
常见的数据陷阱
在深度学习中,数据是模型的基础。如果数据出了问题,模型的效果就会大打折扣。 还行。 下面我们来看看一些常见的数据陷阱。

Normalize的mean/std写成了0–255标度
这个问题很常见,特别是在直接复制某些检测/分割配置时。代码语言:python
imgs, _ = next) # , float32
print.item, .item,
.item, .item)
imgs_val, _ = next)
print.item, imgs_.item,
imgs_.item, imgs_.item)
要我说... 直觉解释:ToTensor已把像素缩放到;再用0–255的mean/std去标准化, 后来啊几乎把所有像素推到接近一个常数,通道方差极小 → 可学习信号被“压扁”。更糟糕的是验证集没Normalize,分布与训练完全不匹配。

