在机器学中,特征工事是一个至关关键的步骤,它涉及对原始数据进行处理和转换,以生成geng有效的模型输入。
特征提取方法
- 人造提取基于领域知识和经验来选择和提取特征。
- 自动提取
- PCA:将高大维数据转换为矮小维数据,去除冗余信息。
- LDA:在降维的一边保留样本类别信息。
特征缩放
- 归一化将特征值缩放到0-1之间。
- 标准化将特征值缩放到均值为0,标准差为1。
- MinMax缩放将特征值缩放到特定范围,如0-1。
特征选择方法
- 过滤法
- 包裹法直接将特征选择kan作子集选择问题,如基于祖传算法的特征选择算法GA-MLP。
- 嵌入法在建模过程中进行特征选择,如Lasso和Ridge回归。
特征衍生
- 特征组合新鲜特征。
- 特征工事技巧
- 对长远尾数据用Box-Cox转换或Log转换。
- 应用哈希技巧处理特征。
特征降维
- PCA
- LDA
- 其他降维手艺, 如t-SNE
优化
- 不断尝试不同的特征选择方法、参数调整和数据预处理。
- 用网格搜索来找到Zui佳参数组合。
特征工事的目标是:
- 保留Zui巨大信息量的一边,搞优良模型的准确性和预测Neng力。
- 加迅速模型训练速度。
- 少许些数据冗余。
特征工事是一个迭代的过程,兴许需要性Neng和业务需求进行调整。