如何通过抽丝剥茧,找到决策树的最佳分裂点?
- 内容介绍
- 文章标签
- 相关推荐
划水。 嗨,朋友们!今天咱们要聊聊那神奇的决策树世界——如何通过抽丝剥茧,找到最棒的分裂点。别看名字听起来高大上, 其实这玩意儿就像把一堆乱七八糟的数据,慢慢挖掘出最干净的“洞口”,然后往里面塞进去,让它们安安静静地自己分类。你说对不对?
第一章:为什么要分裂?
想象你在房间里衣服、书、零食、遥控器……全是乱七八糟的,什么东西都找不到。我们用一个叫“不纯度”的指标来衡量这个混乱程度,它越高就代表越没秩序。决策树的任务就是:给你一堆数据,让它找到那个能把“混乱”降到最低的切点。

比如鸢尾花数据集, 其中有三种花:Setosa、Versicolor和Virginica。我们把所有样本放进根节点,看起来就像一大盒糖果。现在要做的是:挑一个特征和阈值, 把盒子里的糖果切成两半,一边是“小于等于1.35”,另一边是“大于1.35”。这样做后你可以看到左边那堆糖果更纯粹,右边也更纯粹。这就是“分裂”,我们都经历过...!
分裂前后的混乱程度差距
加油! 先看根节点的不纯度:假设有120个样本, 其中40个Setosa、40个Versicolor、40个Virginica。那么父节点的不纯度计算公式是:
Gini_parent = 1 - ² - ² - ² ≈ 0.667
功力不足。 接下来 每个候选阈值都会产生两个子节点,然后我们算每个子节点的不纯度,再根据样本比例加权得到加权平均基尼不纯度。再说说我们比较所有阈值的不纯度减少量,挑选最大的那个。
第二章:候选阈值怎么生成?
在连续特征上, 算法会先把数据按升序排好,然后在每次类别变换的位置取中点作为候选阈值。
划水。 嗨,朋友们!今天咱们要聊聊那神奇的决策树世界——如何通过抽丝剥茧,找到最棒的分裂点。别看名字听起来高大上, 其实这玩意儿就像把一堆乱七八糟的数据,慢慢挖掘出最干净的“洞口”,然后往里面塞进去,让它们安安静静地自己分类。你说对不对?
第一章:为什么要分裂?
想象你在房间里衣服、书、零食、遥控器……全是乱七八糟的,什么东西都找不到。我们用一个叫“不纯度”的指标来衡量这个混乱程度,它越高就代表越没秩序。决策树的任务就是:给你一堆数据,让它找到那个能把“混乱”降到最低的切点。

比如鸢尾花数据集, 其中有三种花:Setosa、Versicolor和Virginica。我们把所有样本放进根节点,看起来就像一大盒糖果。现在要做的是:挑一个特征和阈值, 把盒子里的糖果切成两半,一边是“小于等于1.35”,另一边是“大于1.35”。这样做后你可以看到左边那堆糖果更纯粹,右边也更纯粹。这就是“分裂”,我们都经历过...!
分裂前后的混乱程度差距
加油! 先看根节点的不纯度:假设有120个样本, 其中40个Setosa、40个Versicolor、40个Virginica。那么父节点的不纯度计算公式是:
Gini_parent = 1 - ² - ² - ² ≈ 0.667
功力不足。 接下来 每个候选阈值都会产生两个子节点,然后我们算每个子节点的不纯度,再根据样本比例加权得到加权平均基尼不纯度。再说说我们比较所有阈值的不纯度减少量,挑选最大的那个。
第二章:候选阈值怎么生成?
在连续特征上, 算法会先把数据按升序排好,然后在每次类别变换的位置取中点作为候选阈值。

