如何通过抽丝剥茧，找到决策树的最佳分裂点？

2026-05-30 11:187阅读0评论建站教程

内容介绍
文章标签
相关推荐

划水。嗨，朋友们！今天咱们要聊聊那神奇的决策树世界——如何通过抽丝剥茧，找到最棒的分裂点。别看名字听起来高大上，其实这玩意儿就像把一堆乱七八糟的数据，慢慢挖掘出最干净的“洞口”，然后往里面塞进去，让它们安安静静地自己分类。你说对不对？

第一章：为什么要分裂？

想象你在房间里衣服、书、零食、遥控器……全是乱七八糟的，什么东西都找不到。我们用一个叫“不纯度”的指标来衡量这个混乱程度，它越高就代表越没秩序。决策树的任务就是：给你一堆数据，让它找到那个能把“混乱”降到最低的切点。

比如鸢尾花数据集，其中有三种花：Setosa、Versicolor和Virginica。我们把所有样本放进根节点，看起来就像一大盒糖果。现在要做的是：挑一个特征和阈值，把盒子里的糖果切成两半，一边是“小于等于1.35”，另一边是“大于1.35”。这样做后你可以看到左边那堆糖果更纯粹，右边也更纯粹。这就是“分裂”，我们都经历过...！

分裂前后的混乱程度差距

加油！先看根节点的不纯度：假设有120个样本，其中40个Setosa、40个Versicolor、40个Virginica。那么父节点的不纯度计算公式是：

Gini_parent = 1 - ² - ² - ² ≈ 0.667

功力不足。接下来每个候选阈值都会产生两个子节点，然后我们算每个子节点的不纯度，再根据样本比例加权得到加权平均基尼不纯度。再说说我们比较所有阈值的不纯度减少量，挑选最大的那个。

第二章：候选阈值怎么生成？

在连续特征上，算法会先把数据按升序排好，然后在每次类别变换的位置取中点作为候选阈值。

阅读全文

标签：决策树基尼不纯度信息增益最佳分裂点

第一章：为什么要分裂？

分裂前后的混乱程度差距

加油！先看根节点的不纯度：假设有120个样本，其中40个Setosa、40个Versicolor、40个Virginica。那么父节点的不纯度计算公式是：

Gini_parent = 1 - ² - ² - ² ≈ 0.667

第二章：候选阈值怎么生成？

在连续特征上，算法会先把数据按升序排好，然后在每次类别变换的位置取中点作为候选阈值。

阅读全文

标签：决策树基尼不纯度信息增益最佳分裂点

第一章：为什么要分裂？

分裂前后的混乱程度差距

第二章：候选阈值怎么生成？

相关推荐

第一章：为什么要分裂？

分裂前后的混乱程度差距

第二章：候选阈值怎么生成？

相关推荐