决策树原理详解_决策树的理解

决策树原理详解_决策树的理解决策树是机器学习中一种基本的分类和回归算法,是依托于策略抉择而建立起来的树。其主要优点是模型具有可读性,分类速度快,易于理解。决策树的思想主要来源于Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及有Breiman等人在1984年提出的CART算法。1.什么是决策树决策树简单来说就是带有判决规则(if-then)的一种树,可以依据树中的判决规则来预测未知样本的类…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

决策树是机器学习中一种基本的分类和回归算法,是依托于策略抉择而建立起来的树。其主要优点是模型具有可读性,分类速度快,易于理解。决策树的思想主要来源于Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及有Breiman等人在1984年提出的CART算法。

1.什么是决策树

决策树简单来说就是带有判决规则(if-then)的一种树,可以依据树中的判决规则来预测未知样本的类别和值。用一个网上通俗易懂的例子(相亲)来说明:

  • 女儿:年纪多大了?
  • 母亲:26
  • 女儿:长相如何?
  • 母亲:挺帅的
  • 女儿:收入如何?
  • 母亲:不算很高,中等情况
  • 女儿:是公务员不?
  • 母亲:是,在税务局上班
  • 女儿:那好,我去见见

    这个女孩的在决定是否去相亲的过程就是一个典型的分类决策过程。相当于通过年纪、长相、收入和是否公务员等标准来决定是否去相亲, 其决策过程可以用下面的决策树来表示:
    这里写图片描述
    简单来说,就是女孩会依据一定的规则来选择是否相亲。而且如果她事先将这个规则告诉自己的母亲,母亲就可以直接依据这个分类规则知道女儿是否想去参加这个相亲,即分类结果的

2.决策树模型和学习

定义: 决策树是一个属性结构的预测模型,代表对象属性和对象值之间的一种映射关系。它由节点(node)和有向边(directed edge)组成,其节点有两种类型:内节点(internal node)和叶节点(leaf node),内部节点表示一个特征或属性,叶节点表示一个类。
如上图所示的相亲例子,蓝色的椭圆内节点表示的是对象的属性,橘黄色的矩形叶节点表示分类结果(是否相亲),有向边上的值则表示对象每个属性或特征中可能取的值。

决策树的学习本质上是从训练集中归纳出一组分类规则,得到与数据集矛盾较小的决策树,同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数,通常采用启发式方法,近似求解这一最优化问题。
决策树学习算法包含特征选择、决策树生成与决策树的剪枝。决策树表示的是一个条件概率分布,所以深浅不同的决策树对应着不同复杂程度的概率模型。决策树的生成对应着模型的局部选择(局部最优),决策树的剪枝对应着全局选择(全局最优)。决策树常用的算法有ID3,C4.5,CART,下面通过一个简单的例子来分别介绍这几种算法。

这里写图片描述

上图是一个比较典型的决策树分类用的贷款申请样本数据集:样本特征x(i)x(i) 的类型有年龄是否有工作、是否有房子和信贷情况,样本类别y(i)y(i) 取值是两类是、否,最终的分类结果就是根据样本的特征来预测是否给予申请人贷款。在介绍算法之前,我们先介绍几个相关的概念:

决策树原理详解_决策树的理解

决策树原理详解_决策树的理解

3.算法介绍

ID3算法

在前面我已经介绍了信息增益计算的方法,在ID3算法中,我们通过信息增益来选取相应的特征,首先计算每个特征对样本类别的信息增益:
决策树原理详解_决策树的理解
这里写图片描述
从图中可以看到,有房子的是肯定能够借到贷款的,没房子的,要依据别的条件继续判断。在没有房子的样本中,我们继续计算每个特征在此表上的增益,这样一直到所有样本完全分开就能得到一个适应样本集的决策树。本示例的最终决策树为:
这里写图片描述

算法具体实现将在下一章进行详细的说明。ID3算法只有树的生成,没有树的剪枝,所以容易产生过拟合现象。

C4.5算法

C4.5算法与ID3算法在整体流程上很相似,不同之处在于特征选择用的是信息增益,然后最后有剪枝的过程。依据信息增益率,我们来计算上述例子:

决策树原理详解_决策树的理解

通过上述计算可以看出,增益比最大的还是第三个特征:房子,因此还是选择第三个特征作为最优特征进行初始决策。

CART算法

CART算法主要有两部分组成:
(1) 决策树的生成:基于训练数据集生成决策树,生成的决策树要尽量打。这与ID3算法类似,不同之处也是特征选取的方式;
(2) 决策树的剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,此时用损失函数最小作为剪枝的标准。
CART算法可以用于回归,即建立回归树。在终于分类时,其算法流程与ID3较为类似,不同的是特征选取,选择的是最小基尼指数。

4.决策树剪枝

决策树生成算法是递归地生成决策树,知道不能终止。这样产生的决策树往往分类精细,对训练数据集分类准确,但是对未知数据集却没有那么准确,有比较严重的过拟合问题。因此,为了简化模型的复杂度,使模型的泛化能力更强,需要对已生成的决策树进行剪枝。

决策树原理详解_决策树的理解
决策树的剪枝,就是在α确定时,选择损失函数最小的决策树。当α确定时,子树越大,模型复杂度越高,往往与训练数据拟合越好,但是在未知数据集上表现可能会较差;相反,子树越小,模型复杂度越低,训练数据拟合不好,但是泛化能力好。

转自:https://blog.csdn.net/zx10212029/article/details/49529843?utm_source=copy

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/195860.html原文链接:https://javaforall.net

(0)
上一篇 2025年10月9日 上午7:01
下一篇 2025年10月9日 上午7:43


相关推荐

  • String转成Json数组 JsonArray 保持有序

    String转成Json数组 JsonArray 保持有序接收上传的数据转成Json,希望数据保持原来的顺序,fastjson处理JsonArray会把顺序hash,可以使用Gson来转成Json,避免顺序改变。importcom.google.gson.JsonArray;importcom.google.gson.JsonParser;/***createbyLiuJinHe2019/9/20*/pu…

    2022年6月20日
    77
  • 高中数学平面解析几何解题技巧-直线与圆锥曲线的位置关系-习题

    高中数学平面解析几何解题技巧-直线与圆锥曲线的位置关系-习题今天主讲高中数学平面解析几何解题技巧直线与圆锥曲线的位置关系习题从 4 个方面进行讲解 知识梳理 要点整合 经典考题 2017 高考题 每个方面根据平面解析几何 直线与圆锥曲线的位置关系 习题详细介绍 并附解题过程与答案 解题技巧 一 平面解析几何 平面解析几何直线与圆锥曲线的位置关系 知识梳理 1 直线与圆锥曲线的位置关系的判定 2 直线与圆锥曲线的相交弦长问题二 平面解析几何 直线

    2026年3月18日
    2
  • 向量点乘和叉乘

    向量点乘和叉乘title 向量点乘和叉乘 categories Mathtags MathKnowledg 向量点乘和叉乘假设存在向量 a 和向量 b a a 1 a 2 a 3 b b 1 b 2 b 3 点乘向量 a 和向量 b 的点乘公式如下 a bulletb a 1 b 1 a 2 b 2 a 3 b 3 要求是向量 a 和向量的 b 的维度要相同 点乘的几何意义点乘的几何意义是可以用来表征或者计算两个向量之间的夹角 以及在 b 向量或

    2026年3月19日
    3
  • 手机号码正则(已测试可以)

    手机号码正则(已测试可以)

    2021年10月19日
    38
  • 奶妈教程之基于ADS的带通滤波器仿真「建议收藏」

    奶妈教程之基于ADS的带通滤波器仿真「建议收藏」基于ADS的带通滤波器教学1.试验参数 版本:ADS2021 带通频率范围:3.3GHz~3.8GHz 带阻频率范围:3.1GHz~4.0GHz 特征阻抗:Z=50Ohm2.试验步骤(1)打开ADS软件并新建工程,如图所示(2)建立原理图工程点击图中红圈所示的图标,建立原理图建立带通滤波器工程然后会进入这样一个界面点击DesignGuide下的Filter点击弹出界面下红圈所示的指令此时整个程序界面如图所示,继续点击红圈所示的符号放入设计界面中然后选择图中红圈窗

    2022年5月22日
    49
  • 信道带宽_信道和带宽的关系

    信道带宽_信道和带宽的关系信道包括模拟信道和数字信道。在模拟信道,带宽按照公式W=f2-f1计算;数字信道的带宽为信道能够达到的最大数据速率,两者可通过香农定理互相转换。码元:数字信号中每一个符号的通称。即可以用二进制表示,也可以用其它进制的数表示(例如二进制就是0和1表示两个符号,四进制就是0、1、2和3表示四个符号。四进制又可以用二进制表示,00、01、10、11)。码元传输速率,又称为码元速率或传码率。码元…

    2022年10月11日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号