机器学习十大经典算法入门[通俗易懂]

机器学习十大经典算法入门[通俗易懂]一,SVM(SupportVectorMachine)支持向量机a.SVM算法是介于简单算法和神经网络之间的最好的算法。b.只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。c.高斯核函数d.缺点:计算量大二,决策树(有监督算法,概率算法)…

大家好,又见面了,我是你们的朋友全栈君。

一,SVM(Support Vector Machine)支持向量机
a. SVM算法是介于简单算法和神经网络之间的最好的算法。
b. 只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。
c. 高斯核函数
d. 缺点:计算量大
这里写图片描述

二,决策树(有监督算法,概率算法)
a. 只接受离散特征,属于分类决策树。
b. 条件熵的计算 H(Label |某个特征) 这个条件熵反映了在知道该特征时,标签的混乱程度,可以帮助我们选择特征,选择下一步的决策树的节点。
c. Gini和entropy的效果没有大的差别,在scikit learn中默认用Gini是因为Gini指数不需要求对数,计算量少。
d. 把熵用到了集合上,把集合看成随机变量。
e. 决策树:贪心算法,无法从全局的观点来观察决策树,从而难以调优。
f. 叶子节点上的最小样本数,太少,缺乏统计意义。从叶子节点的情况,可以看出决策树的质量,发现有问题也束手无策。
优点:可解释性强,可视化。缺点:容易过拟合(通过剪枝避免过拟合),很难调优,准确率不高
g. 二分类,正负样本数目相差是否悬殊,投票机制
h. 决策树算法可以看成是把多个逻辑回归算法集成起来。
这里写图片描述

三,随机森林(集成算法中最简单的,模型融合算法)
随机森林如何缓解决策树的过拟合问题,又能提高精度?
a. Random Forest, 本质上是多个算法平等的聚集在一起。每个单个的决策树,都是随机生成的训练集(行),随机生成的特征集(列),来进行训练而得到的。
b. 随机性的引入使得随机森林不容易陷入过拟合,具有很好的抗噪能力,有效的缓解了单棵决策树的过拟合问题。
c. 每一颗决策树训练样本是随机的有样本的放回抽样。

四,逻辑回归(线性算法)
它是广义线性模型GLM的一种,可以看成是一个最简单的神经网络,损失函数是一个对数似然函数,损失函数的值越大越好。(梯度上升法)
a. 多次训练,多次测试,目的是看逻辑回归这个算法适不适合这个应用场景。

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

五,朴素贝叶斯
应用场景:源于推理的需要,例如:通过商品的描述(特征X)来推理商品的类别(Y)。
“朴素”:特征与特征之间是独立的,互不干扰。如果特征比较多时,往往独立性的条件不重要(互相抵消),可以用朴素贝叶斯。
训练的时候:得出条件概率表
推理的时候:比较条件概率的大小
特点:训练容易,推理难

这里写图片描述

六,KNN(K Nearest Neighbor) K近邻(有监督算法,分类算法)
K表示K个邻居,不表示距离,因为需要求所有邻居的距离,所以效率低下。
优点:可以用来填充缺失值,可以处理非线性问题
调优方法:K值的选择,k值太小,容易过拟合
应用:样本数少,特征个数较少,kNN更适合处理一些分类规则相对复杂的问题,在推荐系统大量使用
KNN算法和贝叶斯算法有某种神秘的联系,用贝叶斯算法估算KNN的误差。
这里写图片描述

七,K-means K均值(无监督算法,聚类算法,随机算法)
a. 最常用的无监督算法
b. 计算距离方法:欧式距离,曼哈顿距离
c. 应用:去除孤立点,离群点(只针对度量算法);可以离散化
d. 最常用归一化预处理方法
f. k-means设置超参数k时,只需要设置最大的k值。
g. k-means算法最终肯定会得到稳定的k个中心点,可以用EM(Expectation Maximum)算法解释
h. k-means算法k个随机初始值怎么选? 多选几次,比较,找出最好的那个
i. 调优的方法:1. bi-kmeans 方法(依次“补刀”)
j. 调优的方法:2. 层次聚类(逐步聚拢法)k=5 找到5个中心点,把中心点喂给k-means。初始中心点不同,收敛的结果也可能不一致。
k. 聚类效果怎么判断?用SSE误差平方和指标判断,SSE越小越好,也就是肘部法则的拐点处。也可以用轮廓系数法判断,值越大,表示聚类效果越好,簇与簇之间距离越远越好,簇内越紧越好。
l. k-means算法最大弱点:只能处理球形的簇(理论)
这里写图片描述

八,Adaboost(集成算法之一)

九,马尔可夫
a. 马尔可夫线没有箭头,马尔可夫模型允许有环路。
b. affinity亲和力关系,energy(A,B,C),发现A,B,C之间有某种规律性东西,但不一定是概率,但是可以表示ABC之间的一种亲和力。
c. potential = e1*e2*e3*en potential函数一般来说不是概率
d. 归一化 -> 概率分布probability
e. 贝叶斯模型与马尔可夫模型:任何一个贝叶斯模型对应于唯一的一个马尔可夫模型,而任意一个马尔可夫模型,可以对应于多个贝叶斯模型。
f. 贝叶斯模型类似于象棋,等级分明;马尔可夫模型类似于围棋,人人平等。
g. 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。
这里写图片描述

十,EM算法
EM算法是概率图算法的一个简单

附录:
这里写图片描述

这里写图片描述
模型是已知的:条件概率表(射线)已知( P(Xi|C1) P ( X i | C 1 ) ),类别的概率是已知的( P(C1) P ( C 1 )

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136631.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月3日 上午10:00
下一篇 2022年6月3日 上午10:16


相关推荐

  • 完全背包 初学篇「建议收藏」

    完全背包 初学篇「建议收藏」完全背包 初学

    2022年6月22日
    63
  • matlab生成sinc函数,【 MATLAB 】sinc 函数简介

    matlab生成sinc函数,【 MATLAB 】sinc 函数简介为了内容的完整性 这里简单的介绍了 sinc 函数 这个函数的更多应用实在信号处理中 其他方便不清楚 因此 先基本了解 之后关于采样函数的重构等知识在相关学科中再了解吧 这是一个最基本的例子 画出来 sinc 函数的图像 这是对 sinc 函数的第一印象 至少在 matlab 中是这样的 当然在信号处理或信号与系统中 我们对 sinc 函数的第一印象是 这和 sinc 函数是一样的 这里对此不作记录 具体参考信号与系统

    2026年3月19日
    3
  • 在pycharm中设置utf-8编码自动创建

    在pycharm中设置utf-8编码自动创建在 pycharm 中设置 utf 8 编码 utf 8 是支持国际化的编码方案 如果采用了 utf 8 编码 国外用户在浏览你的网站时 无论你采用何种语言都能够正常显示 反之如果你用了 GB2313 编码 当国外用户浏览你的中文站点时将会显示乱码 因此我们要求每个网页必须指定编码 在 pycharm 中每一个 py 文件中都必须包含一行相同代码 encoding utf 8 以指定编码 要使系统自动创建这一行代码

    2026年3月27日
    3
  • dede中弹出框函数function ShowMsg

    dede中弹出框函数function ShowMsg

    2021年9月25日
    44
  • 使用免费AI完成初步文献综述

    使用免费AI完成初步文献综述

    2026年3月12日
    3
  • 通过pycharm安装python_pycharm编译器安装教程

    通过pycharm安装python_pycharm编译器安装教程python环境的安装与编译器的安装python下载网址python官网:https://www.python.org/python的安装我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown将代码片显示选择的高亮样式进行展示;增加了图片拖拽功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的Ka

    2022年8月25日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号