普通最小二乘法_普通最小二乘法的基本原理

普通最小二乘法_普通最小二乘法的基本原理简单介绍sklearn中的LinearRegression类拟合了一个带有系数w=(w1,w2,…,wp)w=(w1,w2,…,wp)w=(w_1,w_2,…,w_p)的线形模型,使得数据集实际观测数据和预测数据之间的残差平方和最小:minw||Xw−y||22minw||Xw−y||22min_w||Xw-y||^2_2其中向量w=(w1,w2,…,wp)w=(w1,…

大家好,又见面了,我是你们的朋友全栈君。

什么是普通最小二乘法

普通最小二乘法(Ordinary Least Squares,OLS),是一种线性最小二乘法,用于估计线性回归模型中的未知参数。

通俗解释:

最小,即最小化;

二乘,即真实的观测的因变量的值与预测的因变量的值的差的平方和,
∑ ( 真 实 因 变 量 − 预 测 因 变 量 ) 2 \sum (真实因变量-预测因变量)^2 ()2

直观上来看,就是要使得 「集合中每个数据点和回归曲面上对应预测的点的距离的平方的和」 达到最小,这样模型对数据才拟合得最好。

如下图所示,其中 A , B , C , D , E , F {A,B,C,D,E,F} A,B,C,D,E,F 为数据点,要最小化的就是 「红色线段的长度的平方的和」
OLS

如何推导OLS

一般标记:

  • m m m 代表训练集中实例的数量
  • x x x 代表特征/输入变量
  • y y y 代表目标变量/输出变量
  • ( x , y ) (x,y) (x,y) 代表训练集中的实例
  • ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)) 代表第i 个观察实例

线性回归的一般形式:     
h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+…+{\theta_{n}}{x_{n}} hθ(x)=θ0+θ1x1+θ2x2+...+θnxn

θ = [ θ 0 , θ 1 ] \theta=[\theta_0,\theta_1] θ=[θ0,θ1] h θ ( x ) = θ T X h_{\theta} \left( x \right)={\theta^{T}}X hθ(x)=θTX,需要极小化的代价函数是:
J ( θ 0 , θ 1 . . . θ n ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 = 1 2 ( X θ − y ) T ( X θ − y ) J\left( {\theta_{0}},{\theta_{1}}…{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{
{
{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}\\ = \frac{1}{2}({X\theta} -{y})^T({X\theta} – {y})
J(θ0,θ1...θn)=2m1i=1m(hθ(x(i))y(i))2=21(Xθy)T(Xθy)

损失函数、代价函数和目标函数的区别

正规方程

θ = ( X T X ) − 1 X T Y {\theta} = ({X^{T}X})^{-1}{X^{T}Y} θ=(XTX)1XTY

推导过程

J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{
{
{\left( {h_{\theta}}\left( {x^{(i)}} \right)-{y^{(i)}} \right)}^{2}}}
J(θ)=2m1i=1m(hθ(x(i))y(i))2

其中: h θ ( x ) = θ T X = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n {h_{\theta}}\left( x \right)={\theta^{T}}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+…+{\theta_{n}}{x_{n}} hθ(x)=θTX=θ0x0+θ1x1+θ2x2+...+θnxn

将向量表达形式转为矩阵表达形式,则有 J ( θ ) = 1 2 ( X θ − y ) 2 J(\theta )=\frac{1}{2}{
{\left( X\theta -y\right)}^{2}}
J(θ)=21(Xθy)2

其中 X X X m m m n n n列的矩阵( m m m为样本个数, n n n为特征个数), θ \theta θ n n n行1列的矩阵, y y y m m m行1列的矩阵,对 J ( θ ) J(\theta ) J(θ)进行如下变换

J ( θ ) = 1 2 ( X θ − y ) T ( X θ − y ) J(\theta )=\frac{1}{2}{
{\left( X\theta -y\right)}^{T}}\left( X\theta -y \right)
J(θ)=21(Xθy)T(Xθy)

= 1 2 ( θ T X T − y T ) ( X θ − y ) =\frac{1}{2}\left( {
{\theta }^{T}}{
{X}^{T}}-{
{y}^{T}} \right)\left(X\theta -y \right)
=21(θTXTyT)(Xθy)

= 1 2 ( θ T X T X θ − θ T X T y − y T X θ − y T y ) =\frac{1}{2}\left( {
{\theta }^{T}}{
{X}^{T}}X\theta -{
{\theta}^{T}}{
{X}^{T}}y-{
{y}^{T}}X\theta -{
{y}^{T}}y \right)
=21(θTXTXθθTXTyyTXθyTy)

接下来对 J ( θ ) J(\theta ) J(θ)偏导,需要用到以下几个矩阵的求导法则:

d A B d B = A T \frac{dAB}{dB}={
{A}^{T}}
dBdAB=AT

d X T A X d X = 2 A X \frac{d{
{X}^{T}}AX}{dX}=2AX
dXdXTAX=2AX

所以有:

∂ J ( θ ) ∂ θ = 1 2 ( 2 X T X θ − X T y − ( y T X ) T − 0 ) \frac{\partial J\left( \theta \right)}{\partial \theta }=\frac{1}{2}\left(2{
{X}^{T}}X\theta -{
{X}^{T}}y -{}({
{y}^{T}}X )^{T}-0 \right)
θJ(θ)=21(2XTXθXTy(yTX)T0)

= 1 2 ( 2 X T X θ − X T y − X T y − 0 ) =\frac{1}{2}\left(2{
{X}^{T}}X\theta -{
{X}^{T}}y -{
{X}^{T}}y -0 \right)
=21(2XTXθXTyXTy0)

= X T X θ − X T y ={
{X}^{T}}X\theta -{
{X}^{T}}y
=XTXθXTy

∂ J ( θ ) ∂ θ = 0 \frac{\partial J\left( \theta \right)}{\partial \theta }=0 θJ(θ)=0,

则有 θ = ( X T X ) − 1 X T y \theta ={
{\left( {X^{T}}X \right)}^{-1}}{X^{T}}y
θ=(XTX)1XTy

梯度下降法

梯度下降法的具体知识点请看这里

1、 批量梯度下降

一般形式:

θ j = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 , . . . , θ m ) = θ j − α ∂ ∂ θ j 1 2 m ∑ i = 1 m ( h θ ( X ( i ) ) − y ( i ) ) 2 = θ j − α 1 m ∑ i = 1 m ( ( h θ ( X ( i ) ) − y ( i ) ) ⋅ X j ( i ) ) \theta_j\\=\theta_j-\alpha\frac \partial {\partial \theta_j}J(\theta_0,\theta_1,…,\theta_m)\\ =\theta_j-\alpha\frac \partial {\partial\theta_j}\frac 1 {2m} \sum_{i=1}^m(h_{\theta}(X^{(i)})-y^{(i)})^2 \\ =\theta_j-\alpha\frac 1 m \sum_{i=1}^m((h_{\theta}(X^{(i)})-y^{(i)})·X_j^{(i)}) θj=θjαθjJ(θ0,θ1,...,θm)=θjαθj2m1i=1m(hθ(X(i))y(i))2=θjαm1i=1m((hθ(X(i))y(i))Xj(i))

当n>=1时,
θ 0 : = θ 0 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 0 ( i ) {
{\theta }_{0}}:={
{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({
{h}_{\theta }}({
{x}^{(i)}})-{
{y}^{(i)}})}x_{0}^{(i)}
θ0:=θ0am1i=1m(hθ(x(i))y(i))x0(i)

θ 1 : = θ 1 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 1 ( i ) {
{\theta }_{1}}:={
{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({
{h}_{\theta }}({
{x}^{(i)}})-{
{y}^{(i)}})}x_{1}^{(i)}
θ1:=θ1am1i=1m(hθ(x(i))y(i))x1(i)

θ 2 : = θ 2 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 2 ( i ) {
{\theta }_{2}}:={
{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({
{h}_{\theta }}({
{x}^{(i)}})-{
{y}^{(i)}})}x_{2}^{(i)}
θ2:=θ2am1i=1m(hθ(x(i))y(i))x2(i)

矩阵形式:
θ = θ − 1 m α X T ( X θ − Y ) \theta= \theta -\frac 1 m \alpha{X}^T({X\theta} -{Y}) θ=θm1αXT(XθY)其中 α \alpha α为步长。

2、随机梯度下降
θ = θ − α X i T ( X i θ − Y i ) \theta=\theta- \alpha X_i^T(X_i\theta-Y_i) θ=θαXiT(XiθYi)

3、 小批量梯度下降

θ = θ − 1 M α X M T ( X M θ − Y M ) \theta=\theta-\frac 1 M \alpha X_M^T(X_M\theta-Y_M) θ=θM1αXMT(XMθYM)

其中 M M Mbatch_size X M X_M XM表示 M M M条数据, Y M Y_M YM X M X_M XM对应的 y y y的值。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/125200.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月19日 上午10:00
下一篇 2022年4月19日 上午10:00


相关推荐

  • C# 远程唤醒(远程开机)

    C# 远程唤醒(远程开机)C#远程唤醒(远程开机)近日,小白要用到远程开机的功能,网上大多介绍的是MagicPacket的工具。实际上,此MagicPacket是AMD公司开发的,请在google.cn中搜索MagicPacketTechnology。原理上我们不用深入,实现上是发一个BroadCast包,包的内容包括以下数据就可以了。FFFFFFFFFFFF,6个FF是数据的开始,紧跟着16次

    2022年5月24日
    183
  • HBase实战

    HBase实战第一章 HBase 介绍 nbsp HBase 是一种数据库 Hadoop 数据库 它经常被描述为一种稀疏的 分布式的 持久化的 多维有序的映射 它基于行键 rowkey 列键 columnkey 和时间戳 timestamp 建立索引 nbsp HBase 基于 BigTable nbsp 联机事务处理 OLTP 尽快的返回响应结果 nbsp 联机分析处理 OLAP nbsp 抓取增量数据 nbsp nbsp nbsp nbsp 1 抓取监控指标 OpenTSDB nbsp nbsp nbsp nbsp

    2026年3月19日
    1
  • Android studio安装教程[通俗易懂]

    Android studio安装教程[通俗易懂]Androidstudio安装教程傻瓜式教程如果想要彻底重装Androidstudio可以删除目录C:\Users\用户名中的以下几个文件夹。.android.gradle.Androidstudio(Androidstudio4.0版本之前才有)隐藏文件夹(Androidstudio4.0版本后才有)C:\Users\用户名\AppData\Roaming\Google\AndroidStudio4.1C:\Users\用户名\AppData\Local\Google\A

    2022年6月7日
    38
  • Springboot activiti 整合Demo

    Springboot activiti 整合Demo

    2022年4月2日
    84
  • StretchBlt用法[通俗易懂]

    StretchBlt用法[通俗易懂]首先定义protected: BITMAPbmp;其次实现///////////////////////////////////////////////////////////////////////////////CExamineViewdrawingvoidCExamineView::OnDraw(CDC*pDC){ CExamineDoc*pDoc=GetDo

    2025年6月13日
    3
  • (一)activiti学习笔记

    (一)activiti学习笔记

    2021年7月12日
    86

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号