最小二乘法简明推导过程

最小二乘法简明推导过程最小二乘法推导最小二乘法公式J(θ)=1m∑i=1m(y(i)−hθ(x(i)))2J(\theta)=\frac1m\sum_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)}))^2J(θ)=m1​i=1∑m​(y(i)−hθ​(x(i)))2证明1.假设设数据中未被考虑进来的特征和人为无法控制的噪声为ε\varepsilonε。即y(i)=θTx(i)…

大家好,又见面了,我是你们的朋友全栈君。

最小二乘法推导

最小二乘法公式

J ( θ ) = 1 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) 2 J(\theta) = \frac1m\sum_{i=1}^m(y^{(i)} – h_{\theta}(x^{(i)}))^2 J(θ)=m1i=1m(y(i)hθ(x(i)))2

证明

1.假设

设数据中未被考虑进来的特征和人为无法控制的噪声为 ε \varepsilon ε

y ( i ) = θ T x ( i ) + ε ( i ) y^{(i)} = \theta^{T}x^{(i)} + \varepsilon^{(i)} y(i)=θTx(i)+ε(i)

ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0,\sigma^2) εN(0,σ2)

ε ( i ) i s I I D \varepsilon^{(i)} is IID ε(i)isIID (独立同分布)。

简单的说就是 ε ( i ) \varepsilon^{(i)} ε(i) 之间互不影响,前一个的变化,不影响后一个的变化。

可得 P ( y ( i ) ∣ x ( i ) ; θ ) ∼ N ( θ T x ( i ) , σ 2 ) P(y^{(i)} | x^{(i)};\theta) \sim \mathcal{N}(\theta^{T}x^{(i)},\sigma^2) P(y(i)x(i);θ)N(θTx(i),σ2)因为视这里的 θ T x ( i ) \theta^{T}x^{(i)} θTx(i) 为定值。

注意:此处的分号表示 θ \theta θ为参数而不是随机变量。

2.证明:

于是乎展开:

P ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(y^{(i)} | x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2}) P(y(i)x(i);θ)=2π
σ
1
exp(2σ2(y(i)θTx(i))2)
留着备用。

定义似然率:

L ( θ ) = P ( y ⃗ ∣ x ; θ ) \mathcal{L}(\theta) = P(\vec{y}|x;\theta) L(θ)=P(y
x;θ)

= ∏ i = 1 m P ( y ( i ) ∣ x ( i ) ; θ ) =\prod^{m}_{i=1}P(y^{(i)}|x^{(i)};\theta) =i=1mP(y(i)x(i);θ)

= ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = \prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2}) =i=1m2π
σ
1
exp(2σ2(y(i)θTx(i))2)

这个式子推出来有何意义呢?我们先看一下高斯分布的图像:

最小二乘法简明推导过程

如果这个图像中的0点即是 y ( i ) y^{(i)} y(i)是每个x对应的正确答案,如果这幅图就是$P(y^{(i)} | x^{(i)};\theta) $ 的话,那么横坐标轴上的点表示的就是 y ( i ) − ε ( i ) y^{(i)} – \varepsilon^{(i)} y(i)ε(i)也就是 θ T x ( i ) \theta^{T}x^{(i)} θTx(i)(参见假设一)

我们希望 ε ( i ) \varepsilon^{(i)} ε(i)尽可能的小,也就是 θ T x ( i ) \theta^{T}x^{(i)} θTx(i)更加靠近正确答案 y ( i ) y^{(i)} y(i),怎么做?只要令$P(y^{(i)} | x^{(i)};\theta) $尽可能大即可

从此我们得到了最大似然算法。

3.最大似然算法

我们对 L ( θ ) \mathcal{L}(\theta) L(θ)取对数(以e为底)

l ( θ ) = log ⁡ L ( θ ) \mathcal{l}(\theta) = \log{\mathcal{L}(\theta)} l(θ)=logL(θ)

= l o g ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = log{\prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =logi=1m2π
σ
1
exp(2σ2(y(i)θTx(i))2)
对数化乘为加

= ∑ i = 1 m log ⁡ 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) =\sum^m_{i=1}\log{\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =i=1mlog2π
σ
1
exp(2σ2(y(i)θTx(i))2)

= log ⁡ m 2 π σ ∑ i = 1 m log ⁡ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) =\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}\log{exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =log2π
σ
m
i=1mlogexp(2σ2(y(i)θTx(i))2)

= log ⁡ m 2 π σ ∑ i = 1 m − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 =\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2} =log2π
σ
m
i=1m2σ2(y(i)θTx(i))2

将它最大化只需 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 2 \sum^m_{i=1}\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2} i=1m2(y(i)θTx(i))2最小

证明完毕-

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145446.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 文本分类算法综述

    文本分类算法综述文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者,训练集法更多的来自计算机或人工智能研究领域,而分类表法则更多地来自突出情报领域。本文主要介绍前一种。基于训练集的文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下:训练阶段:1)             定义类别集合 ,这些类别可是是层次式的,…

    2022年6月9日
    29
  • 浏览器在线视频播放加速方法——直接修改网页代码实现加速「建议收藏」

    现在有不少的视频网站,自带了播放加速的功能,例如油管、bilibili、慕课等等。在一些付费的网站中,一些自带的播放器是不支持视频加速的,因为已经被加速惯坏,变得很不习惯,在网上查阅资料,也找到了在线视频的加速的解决方法,这边做一个记录。一、html5播放器主要标志是*<video>*标签,这种是最方便实现加速的,因为原生支持。*defaultPlaybackRate…

    2022年4月10日
    613
  • 用ldap方式访问AD域的的错误解释

    用ldap方式访问AD域的的错误解释

    2021年8月14日
    68
  • JAVA和C++区别

    JAVA和C++区别 JAVA和C++都是面向对象语言。也就是说,它们都能够实现面向对象思想(封装,继乘,多态)。而由于c++为了照顾大量的C语言使用者,而兼容了C,使得自身仅仅成为了带类的C语言,多多少少影响了其面向对象的彻底性!JAVA则是完全的面向对象语言,它句法更清晰,规模更小,更易学。它是在对多种程序设计语言进行了深入细致研究的基础上,据弃了其他语言的不足之处,从根本上解决了c++的固有缺陷。Java和

    2022年7月7日
    16
  • 手机的屏幕分辨率_手机屏幕分辨率尺寸

    手机的屏幕分辨率_手机屏幕分辨率尺寸  什么是分辨率?说白了,分辫率高,屏幕显示就更清晰、更细腻。分辨率不高,屏幕显示就会有颗粒感,粗糙感。一句话:分辨率是屏幕显示清晰度的一个指标。现在手机常用的分辫率有:128*160、176*220、240*320。128*160多用在低档的手机。中档的手机一般分辨率为176*220。中高档手机分辨率多为:240*320。夏普现在有一款手机分辨率达到了480*640。比电脑显示屏还清晰

    2022年8月13日
    9
  • Linux下安装libiconv

    Linux下安装libiconv1、下载libiconv库wgethttp://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.13.1.tar.gz2.解压,然后进入解压后的目录tarzxvflibiconv-1.13.1.tar.gz&&cdlibiconv-1.13.13.配置libiconvsudo./configure–prefix=/usr/local或者sudo./configure–prefix=…

    2022年10月23日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号