最小二乘法正规方程推导过程

最小二乘法正规方程推导过程最小二乘法正规方程推导过程线性回归岭回归:添加L2L_2L2​正则项输入样本X∈Rm×n\textbf{X}\in\mathbb{R}^{m\timesn}X∈Rm×n,输出y∈Rm×1\textbf{y}\in\mathbb{R}^{m\times1}y∈Rm×1,需要学习的参数w∈Rn×1\textbf{w}\in\mathbb{R}^{n\times1}w∈Rn×1。其中,mmm为样本个数,nnn为单个样本维度。线性回归最小化目标函数J(w)=12∥y−Xw∥22J(\

大家好,又见面了,我是你们的朋友全栈君。

最小二乘法正规方程推导过程

问题描述

输入样本 X ∈ R m × n \textbf{X}\in \mathbb{R}^{m\times n} XRm×n,输出 y ∈ R m × 1 \textbf{y}\in\mathbb{R}^{m\times 1} yRm×1,需要学习的参数 w ∈ R n × 1 \textbf{w}\in \mathbb{R}^{n\times 1} wRn×1。其中, m m m 为样本个数, n n n 为单个样本维度。

线性回归

最小化目标函数
J ( w ) = 1 2 ∥ y − Xw ∥ 2 2 J(\textbf{w}) = \frac{1}{2}\left\Vert\textbf{y}-\textbf{Xw}\right\Vert^2_2 J(w)=21yXw22
有对 w \textbf{w} w 求梯度等于零
∇ J ( w ) = 0 ∇ ( y − Xw ) T ( y − Xw ) = 0 ∇ ( y T y − y T Xw − ( Xw ) T y + ( Xw ) T Xw ) = 0 ∇ ( − 2 w T X T y + w T X T Xw ) = 0 − 2 X T y + ( X T X + ( X T X ) T ) w = 0 − 2 X T y + 2 X T Xw = 0 w = ( X T X ) − 1 X T y \begin{aligned}&\nabla J(\textbf{w})=\textbf{0}\\& \nabla\left(\textbf{y}-\textbf{Xw}\right)^T\left(\textbf{y}-\textbf{Xw}\right)=\textbf{0}\\& \nabla\left(\textbf{y}^T\textbf{y}-\textbf{y}^T\textbf{Xw}-\left(\textbf{Xw}\right)^T\textbf{y}+(\textbf{Xw})^T\textbf{Xw}\right)=\textbf{0}\\& \nabla\left(-2\textbf{w}^T\textbf{X}^T\textbf{y}+\textbf{w}^T\textbf{X}^T\textbf{Xw}\right)=\textbf{0}\\& -2\textbf{X}^T\textbf{y}+\left(\textbf{X}^T\textbf{X}+\left(\textbf{X}^T\textbf{X}\right)^T\right)\textbf{w}=\textbf{0}\\& -2\textbf{X}^T\textbf{y}+2\textbf{X}^T\textbf{X}\textbf{w}=\textbf{0}\\& \textbf{w}=\left(\textbf{X}^T\textbf{X}\right)^{-1}\textbf{X}^T\textbf{y}\end{aligned} J(w)=0(yXw)T(yXw)=0(yTyyTXw(Xw)Ty+(Xw)TXw)=0(2wTXTy+wTXTXw)=02XTy+(XTX+(XTX)T)w=02XTy+2XTXw=0w=(XTX)1XTy

岭回归:添加 L 2 L_2 L2 正则项

最小化目标函数
J ( w ) = 1 2 ∥ y − Xw ∥ 2 2 + λ w T w J(\textbf{w}) = \frac{1}{2}\left\Vert\textbf{y}-\textbf{Xw}\right\Vert^2_2+\lambda\textbf{w}^T\textbf{w} J(w)=21yXw22+λwTw
有对 w \textbf{w} w 求梯度等于零
∇ J ( w ) = 0 ∇ ( y − Xw ) T ( y − Xw ) + λ ∇ w T w = 0 ∇ ( y T y − y T Xw − ( Xw ) T y + ( Xw ) T Xw ) + 2 λ w = 0 ∇ ( − 2 w T X T y + w T X T Xw ) + 2 λ w = 0 − 2 X T y + ( X T X + ( X T X ) T ) w + 2 λ w = 0 − 2 X T y + 2 X T Xw + 2 λ Iw = 0 w = ( X T X + λ I ) − 1 X T y \begin{aligned}&\nabla J(\textbf{w})=\textbf{0}\\& \nabla\left(\textbf{y}-\textbf{Xw}\right)^T\left(\textbf{y}-\textbf{Xw}\right)+\lambda\nabla\textbf{w}^T\textbf{w}=\textbf{0}\\& \nabla\left(\textbf{y}^T\textbf{y}-\textbf{y}^T\textbf{Xw}-\left(\textbf{Xw}\right)^T\textbf{y}+(\textbf{Xw})^T\textbf{Xw}\right)+2\lambda\textbf{w}=\textbf{0}\\& \nabla\left(-2\textbf{w}^T\textbf{X}^T\textbf{y}+\textbf{w}^T\textbf{X}^T\textbf{Xw}\right)+2\lambda\textbf{w}=\textbf{0}\\& -2\textbf{X}^T\textbf{y}+\left(\textbf{X}^T\textbf{X}+\left(\textbf{X}^T\textbf{X}\right)^T\right)\textbf{w}+2\lambda\textbf{w}=\textbf{0}\\& -2\textbf{X}^T\textbf{y}+2\textbf{X}^T\textbf{X}\textbf{w}+2\lambda\textbf{Iw}=\textbf{0}\\& \textbf{w}=\left(\textbf{X}^T\textbf{X}+\lambda\textbf{I}\right)^{-1}\textbf{X}^T\textbf{y}\end{aligned} J(w)=0(yXw)T(yXw)+λwTw=0(yTyyTXw(Xw)Ty+(Xw)TXw)+2λw=0(2wTXTy+wTXTXw)+2λw=02XTy+(XTX+(XTX)T)w+2λw=02XTy+2XTXw+2λIw=0w=(XTX+λI)1XTy

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145669.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月16日 下午9:00
下一篇 2022年5月16日 下午9:00


相关推荐

  • 数据库隔离级别及原理

    数据库隔离级别及原理数据库的隔离级别是通过共享锁和排他锁实现的 锁又可以分为表锁 页锁 行锁数据库事务的隔离级别有 4 个 由低到高依次为 Readuncommit Readcommitte Repeatablere Serializable 这四个级别可以逐个解决脏读 不可重复读 幻读这几类问题 脏读 读到的不是最新的数据不可重复读 读到是是最新的数据 但是一个事务中如果多次读取 可能每次读到

    2026年3月16日
    2
  • 未来新一代计算机发展趋势有,未来计算机的发展趋势

    未来新一代计算机发展趋势有,未来计算机的发展趋势未来计算机的发展趋势目前 中间件技术已经发展成为企业应用的主流技术 如交易中间件 消息中间件 专有系统中间件 面向对象中间件 数据存取中间件 远程调用中间件等 随着计算机应用的广泛和深入 又向计算机术本身提出了更高的要求 要起提高计算机的工作速度和存储量 关键是实现更高的集成度 传统的计算机的芯片是用半导体材料制成的 这在当时是最佳的选择 但随着集成的提高 它的弱点也日益显现出来 专家们认识到 尽

    2026年3月17日
    2
  • redash+mysql_Redash – 安装和初试

    redash+mysql_Redash – 安装和初试前言当业务成长到一定规模之后 会有许多想看各种不同类型报表的需求 如果单独做在后台 那么无疑会浪费前端和后端开发的时间 所以一直都有在寻找一款好用的 BI 工具 后面查了一下 市面上好用的一些非商业的 BI 工具 主要的是 Superset Redash Metabase 这三种 评测请看 数据可视化的开源方案 SupersetvsRe 一 数据可视化的开源方案

    2026年3月18日
    0
  • 数据仓库常见建模方法与建模实例演示[通俗易懂]

    数据仓库常见建模方法与建模实例演示[通俗易懂]1.数据仓库建模的目的?为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑访问性能:能够快速查询所需的数据,减少数据I/O 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本 使用效率:改善用户应用体验,提高使用数据的效率 数据质量…

    2026年2月26日
    3
  • qtabwidget设置表头_QTabWidget添加自定义样式[通俗易懂]

    qtabwidget设置表头_QTabWidget添加自定义样式[通俗易懂]setStyleSheet(“QTabWidget::pane{border-width:1px;border-color:rgb(48,104,151);\border-style:outset;background-color:rgb(132,171,208);\background:transparent;}\QTabWidget::tab-bar{border-width:…

    2026年2月24日
    3
  • 详解linux中nano命令

    详解linux中nano命令

    2026年3月15日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号