机器学习常见问题

机器学习常见问题

一、线性回归的基本假设是什么?

使用线性回归模型的四个基本假设:
(1)自变量和因变量满足线性可加
a. 因变量的预测值和自变量满足直线方程,方程中,其余变量当作常量
b. 直线的斜率和其他变量无关
c. 不同因变量的值对于自变量的预测值是可加的

(2)误差是统计独立的

(3)对于任意自变量,误差的方差不变

(4)误差满足正态分布

 

二、什么是准确率、精确率、召回率

精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。

准确率(accuracy) = 预测对的/所有

 如果我们希望:被检索到的内容越多越好,这是追求“查全率”,即A/(A+C),越大越好。

如果我们希望:检索到的文档中,真正想要的、也就是相关的越多越好,不相关的越少越好,

这是追求“准确率”,即A/(A+B),越大越好。

 

三、决策树的损失函数以及剪枝系数

<span>机器学习常见问题</span>

H(t)表示第t个叶子节点的不确定度(信息增益、信息增益率、基尼系数等)

D(t)表示第t个叶子节点的样本数

D表示总共的样本数

 

通常,节点越多,决策树越复杂,损失也越大。可以对损失函数添加损失系数,修正后的损失函数为:

<span>机器学习常见问题</span>

对于根节点r的决策树和节点有R个的决策树,剪枝系数表示为:

<span>机器学习常见问题</span>

 

四、简述剪枝操作

前向剪枝:构建决策树的时候,提前停止。

后置剪枝:决策树构建好之后,再进行剪枝,(1)用单一叶子节点代替整个子树(2)将一颗子树完全替代另一颗

对于后置剪枝的过程为:

(1)计算所有内部非叶子节点的剪枝系数

(2)删除最小剪枝系数的节点,若存在多个最小剪枝系数节点,删除包含数据项最多的节点

(3)重复上述过程,直到产生的剪枝决策树只有一个节点

(4)每次删除节点得到决策树Ti

(5)使用验证样本集选择最优子树(即可以通过损失函数验证)

 五、决策树的停止条件

方式1:当每个子节点都只有一种类型时停止构建

方式2:节点中的记录数据小于某个阈值且迭代次数达到给定值

方式1容易过拟合、方式2常用

六、分类树和回归树的区别

分类树的叶子节点的预测值一般为概率最大的类别,回归树的叶子节点的预测值一般为所有值的均值,回归树采用均方差作为数的评价指标。

 

七、交叉熵

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

八、线性回归和逻辑回归有什么区别联系

区别:
(1)需要优化的损失函数不同,线性回归的损失函数为平方和损失函数,逻辑回归的损失函数为似然函数的负数
(2)线性回归解决回归问题,逻辑回归解决分类问题
联系:
逻辑回归本质上是一个线性回归问题,除去sigmoid的一个01映射,其他过程都一样。譬如,假设一个人挣钱能力和年龄有关吧,从一岁的时候挣钱为-20,每年+1,21岁为0,22岁为1这个过程可以说是一个线性回归问题,可以预测他18岁时是挣钱还是不挣钱,但是如果加上一个非线性映射的话,就可以将问题简单化的划分为0:不挣钱,1:挣钱的问题。
 
 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119468.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux防火墙端口设置_centos怎么关闭防火墙端口

    linux防火墙端口设置_centos怎么关闭防火墙端口Ubuntu18:测试:默认拒绝全部端口提示:端口修改后立即生效sudoufwstatus#查看端口状态sudoufwdisable#关闭防火墙sudoufwenable#打开防火墙sudoufwallow3306#允许tcp/udp访问端口sudoufwdeny3306#禁止端口或服务访问sudoufwdeleteallow3306#删除规则(或deny3306)CentOS7:测试:默认接收全部端口提示:端口修改后要重启防

    2022年9月22日
    2
  • linux的vim怎么剪切,Linux.vim.多行复制、删除、剪切

    linux的vim怎么剪切,Linux.vim.多行复制、删除、剪切中间件Study-了解什么是中间件一.中间件含义:中间价是位于各种平台(硬件和操作系统)和各种应用之间的通用服务.帮助应用实现高效的.可靠的消息使应用之间实现便捷的互联互通高效.可靠构建企业应用实现分布式应用的快速搭建和部署注:中间…谈谈我印象中的JVM不足之处研究JVM也有一段时间了,其间也发现了它的很多不足之处,在此一一道来,由于本人对JVM的理解有限,如有错误的地方,还请大家指正:本…

    2022年6月22日
    32
  • 如何在Pycharm上安装PyQt5[通俗易懂]

    如何在Pycharm上安装PyQt5[通俗易懂]这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好!这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

    2022年8月25日
    5
  • 阿里云URL转发类问题排查[通俗易懂]

    阿里云URL转发类问题排查[通俗易懂]概念URL转发包含URL隐性转发和URL显性转发,主要是指将一个域名指向另外一个已经存在的站点时,可以通过URL转发实现。隐性URL转发是用的是iframe框架技术,显性URL转发采用的是301(也称之为永久性转移)或302重定向技术(也称之为暂时性转移)。301和302说明301redirect:301代表永久性转移(PermanentlyMoved)302redirect:302代表暂时性转移(TemporarilyMoved)共同点:301和302状态码都表示重定向,当浏览

    2022年10月19日
    3
  • 23种设计模式(2):工厂方法模式

    23种设计模式(2):工厂方法模式

    2021年11月13日
    47
  • 微信企业号根据错误码返回错误信息类封装

    微信企业号根据错误码返回错误信息类封装微信企业号根据错误码返回错误信息类封装

    2022年5月1日
    78

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号