最小角回归算法定义_有无回归算法

最小角回归算法定义_有无回归算法最小角回归算法(LeastAngleRegression,LAR)是一种针对于线性回归问题,快速进行特征选择和回归系数计算的迭代算法,其被广泛推广用于求解线性回归以及Lasso回归问题。最小角回归算法的核心思想为:将回归目标向量依次分解为若干组特征向量的线性组合,最终使得与所有特征均线性无关的残差向量最小。可见,最小角回归算法的关键在于选择正确的特征向量分解顺序和分解系数。为了更好的表示最…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

最小角回归算法(Least Angle Regression,LAR)是一种针对于线性回归问题,快速进行特征选择和回归系数计算的迭代算法,其被广泛推广用于求解线性回归以及Lasso回归问题。

最小角回归算法的核心思想为:将回归目标向量依次分解为若干组特征向量的线性组合,最终使得与所有特征均线性无关的残差向量最小。

可见,最小角回归算法的关键在于选择正确的特征向量分解顺序和分解系数。为了更好的表示最小角回归的分解过程,本文以线性回归问题为例,分别介绍相关的前向选择算法、前向梯度算法和最小角回归算法。

会方便描述,本文的算法几何展示均简化为在二维平面内的回归问题(忽略偏置项): y = θ 1 x 1 + θ 2 x 2 y=\theta_1x_1+\theta_2x_2 y=θ1x1+θ2x2其中 x 1 、 x 2 x_1、x_2 x1x2为两组特征向量, θ 1 、 θ 2 \theta_1、\theta_2 θ1θ2为预求的回归系数。同时定义残差向量 y ( i ) y^{(i)} y(i)为:第 i i i次特征向量线性组合后,与目标向量间的向量差。因此初始残差 y ( 0 ) y^{(0)} y(0)即为目标向量 y y y
在这里插入图片描述

一、前向选择(Forward Selection)算法

前向选择算法,是一种贪婪的对目标向量进行特征分解的算法。

其计算流程如下:

(1)选择一个与目标向量 y ( 0 ) y^{(0)} y(0)(初始残差向量)相关度最高(如余弦夹角最小)的特征向量 x i x_i xi方向,将目标向量在该方向 x i x_i xi上进行投影,得到第二轮的目标残差向量 y ( 0 ) − θ 1 x i y^{(0)}-\theta_1x_i y(0)θ1xi

(2)从尚未被使用过的特征向量中,选择与当前目标残差向量相关度最高的特征向量方向进行投影,将目标向量减去前面各轮中的投影向量,得到下一轮的目标残差方向 y ( 0 ) − ∑ i θ i x i y^{(0)}-\sum\limits_i\theta_ix_i y(0)iθixi

(3)重复步骤(2)直至终止条件。终止条件可为:a)无目标残差;b)无多余特征向量;c)残差向量足够小。

将上述计算流程应用在二维平面内,可见下图。其中黑色线为特征向量;红色线为各轮的目标残差向量;绿色线为各轮的投影值;上标为第 i i i轮。
在这里插入图片描述
前向选择算法简单粗暴,各特征向量最多使用一次,每轮的目标残差方向均与上一轮采用的特征向量方向正交。

但因为其忽略了各特征向量间可能存在的线性关系,仅作盲目的依次投影,因此计算较为粗糙,只能给出局部近似解。

二、前向梯度(Forward Stagewise)算法

前向梯度算法与前向选择算法的基本思想一致,但并没有盲目进行直接投影,而是采用了小步试错的方法,采用更谨慎细致的向量选择保证每一小步分解的合理性。

其计算流程如下:

(1)选择一个与本轮目标残差向量 y ( i ) y^{(i)} y(i)相关度最高(如余弦夹角最小)的特征向量 x i x_i xi方向,在该方向 x i x_i xi移动一小步 ϵ x i \epsilon x_i ϵxi,得到下一轮的目标残差向量 y ( 0 ) − ∑ i ϵ x i y^{(0)}-\sum\limits_i\epsilon x_i y(0)iϵxi

(2)以全量特征向量为候选集,重复步骤(1)直至终止条件。终止条件可为:a)无目标残差;b)残差向量足够小。

在前向梯度算法中,每轮的候选特征向量均为全量的特征向量,因此每个特征向量可能会被多次使用。当 ϵ \epsilon ϵ值很小时,可以得到精确的最优解,但此时计算量很大。

将上述计算流程应用在二维平面内,可见下图。
在这里插入图片描述

三、最小角回归算法

最小角回归算法是前向选择算法的快速性与前向梯度算法的准确性两者间的折中。

其计算流程如下:

(1)选择一个与初始目标残差向量 y ( 0 ) y^{(0)} y(0)相关度最高(如余弦夹角最小)的特征向量 x i x_i xi方向,在该方向 x i x_i xi上移动某个步长 θ i \theta_i θi,使得此时的残差向量 y ( 0 ) − θ i x i y^{(0)}-\theta_i x_i y(0)θixi与特征向量 x i x_i xi以及另一个相关度最高的特征向量 x j x_j xj的相关度相等(或者说,使得 y ( 0 ) − θ i x i y^{(0)}-\theta_i x_i y(0)θixi恰好位于 x i x_i xi x j x_j xj的角平分线上);

(2)以上述角平分线方向(亦是当前残差向量方向)为新的特征向量搜索方向进行移动某个步长 θ i \theta_i θi,使得残差向量 y ( 0 ) − ∑ i θ i x i y^{(0)}-\sum\limits_i\theta_i x_i y(0)iθixi与先前用到的各特征向量间的相关度与剩余特征集合中相关度最高的特征向量相关度相等(或者说,使得 y ( 0 ) − ∑ i θ i x i y^{(0)}-\sum\limits_i\theta_i x_i y(0)iθixi位于上述各特征向量的空间角平方线上);

(3)重复步骤(2)直至终止条件。终止条件可为:终止条件可为:a)无目标残差;b)无多余特征向量;c)残差向量足够小。

将上述计算流程应用在二维平面内,可见下图。
在这里插入图片描述
在最小角回归算法中,各特征向量最多使用一次,其通过准确得到每步最优的分解长度保证了计算的准确性和速度。其主要优点包括:

1)特别适合于特征维度n 远高于样本数m的情况;

2)算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样;

3)可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用。

但注意到最小角回归的迭代方向是基于目标残差方向,所以其很容易受到噪声的影响

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/171765.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • matlab三个自变量拟合函数_matlab拟合二元函数

    matlab三个自变量拟合函数_matlab拟合二元函数如何用matlab数据拟合函数?用matlab求解多元线性方程www.zhiqu.org时间:2020-12-08Matlab有一个功能强大的曲线拟合工具箱cftool,使用方便,能实现多种类型的线性、非线性曲线拟合。下面结合我使用的MatlabR2007b来简单介绍如何使用这个工具箱。假设我们要拟合的函数形式是y=A*x*x+B*x,且A>0,B>0…

    2025年9月26日
    8
  • docker下载安装教程_安卓安装docker

    docker下载安装教程_安卓安装docker前言Docker提供轻量的虚拟化,你能够从Docker获得一个额外抽象层,你能够在单台机器上运行多个Docker微容器,而每个微容器里都有一个微服务或独立应用,例如你可以将Tomcat运行在一个D

    2022年8月6日
    23
  • NLP学习之使用pytorch搭建textCNN模型进行中文文本分类

    NLP学习之使用pytorch搭建textCNN模型进行中文文本分类最近花周末两天时间利用pytorch实现了TextCNN进行了中文文本分类,在此进行记录。数据获取中文数据是从https://github.com/brightmart/nlp_chinese_corpus下载的。具体是第3个,百科问答Json版,因为感觉大小适中,适合用来学习。下载下来得到两个文件:baike_qa_train.json和baike_qa_valid.json。内容如下:{…

    2022年6月28日
    145
  • C语言程序设计50例(经典收藏)[通俗易懂]

    C语言程序设计50例(经典收藏)本篇文章是对C语言程序设计的50个小案例进行了详细的分析介绍,需要的朋友参考下【程序1】题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?1.程序分析:可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去      掉不满足条件的排列。2.程序源代码:代码如下:#include"stdio.h"#i…

    2022年4月18日
    67
  • JavaScript数组_java数组排序

    JavaScript数组_java数组排序JavaScript数组常用方法(最全)今天我们对JavaScript的数组以及对象的方法做一个总结,方便与以后的开发与查询,多多收藏哦!1.push()push方法可以向数组的末尾添加一个或者多个元素,并返回新的长度.2.pop()pop()方法用于删除并返回数组的最后一个元素。3.unshift()unshift()方法可向数组的开头添加一个或更多元素,并返回新的长度。4.shift()shift()方法用于把数组的第一个元素从其中删除,并返回第一

    2025年7月17日
    4
  • 简述django请求生命周期_django请求的生命周期

    简述django请求生命周期_django请求的生命周期Django请求生命周期分析1.客户端发送请求在浏览器输入url地址,例如www.baidu.com,浏览器会自动补全协议(http),变为http://www.baidu.com,现在部分网站都

    2022年7月30日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号