梯度下降法及其Python实现

梯度下降法及其Python实现梯度下降法 gradientdesc 又名最速下降法 steepestdesc 是求解无约束最优化问题最常用的方法 它是一种迭代方法 每一步主要的操作是求解目标函数的梯度向量 将当前位置的负梯度方向作为搜索方向 因为在该方向上目标函数下降最快 这也是最速下降法名称的由来 梯度下降法特点 越接近目标值 步长越小 下降速度越慢 直观上来看如下图所示 这里每一个圈

梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向(因为在该方向上目标函数下降最快,这也是最速下降法名称的由来)。
梯度下降法特点:越接近目标值,步长越小,下降速度越慢。
直观上来看如下图所示:
梯度下降法及其Python实现

这里每一个圈代表一个函数梯度,最中心表示函数极值点,每次迭代根据当前位置求得的梯度(用于确定搜索方向以及与步长共同决定前进速度)和步长找到一个新的位置,这样不断迭代最终到达目标函数局部最优点(如果目标函数是凸函数,则到达全局最优点)。

下面我们将通过公式来具体说明梯度下降法
下面这个h(θ)是我们的拟合函数
梯度下降法及其Python实现

也可以用向量的形式进行表示:
梯度下降法及其Python实现

下面函数是我们需要进行最优化的风险函数,其中的每一项梯度下降法及其Python实现都表示在已有的训练集上我们的拟合函数与y之间的残差,计算其平方损失函数作为我们构建的风险函数(参见最小二乘法及其Python实现)
梯度下降法及其Python实现

这里我们乘上1/2是为了方便后面求偏导数时结果更加简洁,之所以能乘上1/2是因为乘上这个系数后对求解风险函数最优值没有影响。
我们的目标就是要最小化风险函数,使得我们的拟合函数能够最大程度的对目标函数y进行拟合,即:
梯度下降法及其Python实现

后面的具体梯度求解都是围绕这个目标来进行。

批量梯度下降BGD
按照传统的思想,我们需要对上述风险函数中的每个梯度下降法及其Python实现求其偏导数,得到每个梯度下降法及其Python实现对应的梯度
梯度下降法及其Python实现

这里梯度下降法及其Python实现表示第i个样本点梯度下降法及其Python实现的第j分量,即h(θ)中的梯度下降法及其Python实现

接下来由于我们要最小化风险函数,故按照每个参数梯度下降法及其Python实现的负梯度方向来更新每一个梯度下降法及其Python实现
梯度下降法及其Python实现

这里的α表示每一步的步长

从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,那么可想而知这种方法的迭代速度!!所以,这就引入了另外一种方法,随机梯度下降。

随机梯度下降SGD
因为批量梯度下降在训练集很大的情况下迭代速度非常之慢,所以在这种情况下再使用批量梯度下降来求解风险函数的最优化问题是不具有可行性的,在此情况下,提出了——随机梯度下降
我们将上述的风险函数改写成以下形式:
梯度下降法及其Python实现

其中,
梯度下降法及其Python实现

称为样本点梯度下降法及其Python实现的损失函数

接下来我们对每个样本的损失函数,对每个梯度下降法及其Python实现求其偏导数,得到每个梯度下降法及其Python实现对应的梯度
梯度下降法及其Python实现

然后根据每个参数梯度下降法及其Python实现的负梯度方向来更新每一个梯度下降法及其Python实现
梯度下降法及其Python实现

与批量梯度下降相比,随机梯度下降每次迭代只用到了一个样本,在样本量很大的情况下,常见的情况是只用到了其中一部分样本数据即可将θ迭代到最优解。因此随机梯度下降比批量梯度下降在计算量上会大大减少。

SGD有一个缺点是,其噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。而且SGD因为每次都是使用一个样本进行迭代,因此最终求得的最优解往往不是全局最优解,而只是局部最优解。但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。

下面是两种方法的图形展示:
梯度下降法及其Python实现
梯度下降法及其Python实现

从上述图形可以看出,SGD因为每次都是用一个样本点进行梯度搜索,因此其最优化路径看上去比较盲目(这也是随机梯度下降名字的由来)。

对比其优劣点如下:
批量梯度下降:
优点:全局最优解;易于并行实现;总体迭代次数不多
缺点:当样本数目很多时,训练过程会很慢,每次迭代需要耗费大量的时间。

随机梯度下降:
优点:训练速度快,每次迭代计算量不大
缺点:准确度下降,并不是全局最优;不易于并行实现;总体迭代次数比较多。
















































































============ 分割分割 =============
上面我们讲解了什么是梯度下降法,以及如何求解梯度下降,下面我们将通过Python来实现梯度下降法。



# _*_ coding: utf-8 _*_ # 作者: yhao # 博客: http://blog.csdn.net/yhao2014 # 邮箱:  # 训练集 # 每个样本点有3个分量 (x0,x1,x2) x = [(1, 0., 3), (1, 1., 3), (1, 2., 3), (1, 3., 2), (1, 4., 4)] # y[i] 样本点对应的输出 y = [95.364, 97., 75., 60., 49.] # 迭代阀值,当两次迭代损失函数之差小于该阀值时停止迭代 epsilon = 0.0001 # 学习率 alpha = 0.01 diff = [0, 0] max_itor = 1000 error1 = 0 error0 = 0 cnt = 0 m = len(x) # 初始化参数 theta0 = 0 theta1 = 0 theta2 = 0 while True: cnt += 1 # 参数迭代计算 for i in range(m): # 拟合函数为 y = theta0 * x[0] + theta1 * x[1] +theta2 * x[2] # 计算残差 diff[0] = (theta0 + theta1 * x[i][1] + theta2 * x[i][2]) - y[i] # 梯度 = diff[0] * x[i][j] theta0 -= alpha * diff[0] * x[i][0] theta1 -= alpha * diff[0] * x[i][1] theta2 -= alpha * diff[0] * x[i][2] # 计算损失函数 error1 = 0 for lp in range(len(x)): error1 += (y[lp]-(theta0 + theta1 * x[lp][1] + theta2 * x[lp][2]))2/2 if abs(error1-error0) < epsilon: break else: error0 = error1 print ' theta0 : %f, theta1 : %f, theta2 : %f, error1 : %f' % (theta0, theta1, theta2, error1) print 'Done: theta0 : %f, theta1 : %f, theta2 : %f' % (theta0, theta1, theta2) print '迭代次数: %d' % cnt 

结果(截取部分):

 theta0 : 2., theta1 : 3., theta2 : 7., error1 : 7. theta0 : 4., theta1 : 3., theta2 : 11., error1 : 813. theta0 : 5., theta1 : 3., theta2 : 14., error1 : 1686. theta0 : 5., theta1 : 2., theta2 : 15., error1 : 2086. theta0 : 6., theta1 : 1., theta2 : 16., error1 : 2204. theta0 : 6., theta1 : 0., theta2 : 17., error1 : 2194. theta0 : 74., theta1 : -13., theta2 : 8., error1 : 87. theta0 : 74., theta1 : -13., theta2 : 8., error1 : 87. theta0 : 74., theta1 : -13., theta2 : 8., error1 : 87.045719 theta0 : 75.041771, theta1 : -13., theta2 : 8., error1 : 86. theta0 : 75.091349, theta1 : -13., theta2 : 8., error1 : 86. theta0 : 75., theta1 : -13., theta2 : 8., error1 : 86.072830 theta0 : 75., theta1 : -13., theta2 : 8., error1 : 85. theta0 : 75., theta1 : -13., theta2 : 8., error1 : 85. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. theta0 : 97., theta1 : -13., theta2 : 1., error1 : 1. Done: theta0 : 97., theta1 : -13., theta2 : 1. 迭代次数: 3443

可以看到最后收敛到稳定的参数值。

注意:这里在选取alphaepsilon时需要谨慎选择,可能不适的值会导致最后无法收敛。



参考文档:

随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

随机梯度下降法 
python实现梯度下降算法 





版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233920.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ubuntu卸载JDK

    ubuntu卸载JDK1.要删除OpenJDK,检查是安装的哪个OpenJDK包#dpkg–list|grep-ijdk2.移除openjdk包#apt-getpurgeopenjdk*3.卸载OpenJDK相关包#apt-getpurgeicedtea-*openjdk-*4.检查所有OpenJDK包是否都已卸载完毕#dpkg–list|grep-ijdk注:如果权限不够,就在前面加上sudo。…

    2022年6月25日
    26
  • DLL注入之使用SetWindowsHookEx注入「建议收藏」

    DLL注入之使用SetWindowsHookEx注入「建议收藏」原理分析:本次介绍的是使用全局钩子的方式进行注入。在Windows中可以使用SetWindowsHookEx来设置消息钩子,这个函数除了可以设置当前进程的钩子之外,它还可以设置全局钩子。全局钩子,顾名思义,即当前正在运行的进程都会被设置相应的钩子。//dwThreadId设置为0,则是全局钩子。HHOOKSetWindowsHookExA(intidHook,…

    2022年5月13日
    42
  • JDBC_2Blob数据类型和批量操作「建议收藏」

    JDBC_2Blob数据类型和批量操作「建议收藏」JDBC Blob数据类型PreparedStatement操作Blob类型数据Blob是一个二进制大型对象Statement不能操作Blob数据类型,以为Blob数据类型是无法使用字符串拼接的,PreparedStatement可以操作Blob数据类型插入Blob //插入Blob String sql = “insert into customers(name,email,birth,photo) values(?,?,?,?)”; java.

    2022年8月8日
    4
  • java 直播技术_视频直播的技术原理和实现思路方案整理

    java 直播技术_视频直播的技术原理和实现思路方案整理直播模型及其实现一个通用的直播模型一般包括三个模块:主播方、服务器端和播放端。首先是主播方,它是产生视频流的源头,由一系列流程组成:第一,通过一定的设备来采集数据;第二,将采集的这些视频进行一系列的处理,比如水印、美颜和特效滤镜等处理;第三,将处理后的结果视频编码压缩成可观看可传输的视频流;第四,分发推流,即将压缩后的视频流通过网络通道传输出去。其次是播放端,播放端功能有两个层面,第一个层面是关键…

    2022年7月24日
    12
  • 安全帽识别算法

    安全帽识别算法应用背景:安全帽作为一种最常见和实用的个人防护用具,能够有效地防止和减轻外来危险源对头部的伤害。但在现场操作过程中,安全帽的佩戴很容易人为忽略,引发了不少人身伤害事故。为了保证工作人员都能在作业中佩戴安全帽,保障作业人员安全,安全帽识别算法系统应运而生。关键字:安全帽识别算法安全帽识别算法技术原理安全帽识别算法采用最新AI人工智能深度学习技术,基于计算机智能视频物体识别算法,且通过规模化的安全帽数据识别训练,赋予监控系统智能识别能力,从而准确判断识别场景内的作业人员是否佩戴安全帽,若检.

    2022年5月12日
    59
  • 重定向与转发的区别以及实现_重定向与转发

    重定向与转发的区别以及实现_重定向与转发一、转发和重定向的区别request.getRequestDispatcher()是容器中控制权的转向,在客户端浏览器地址栏中不会显示出转向后的地址;服务器内部转发,整个过程处于同一个请求当中。response.sendRedirect()则是完全的跳转,浏览器将会得到跳转的地址,并重新发送请求链接。这样,从浏览器的地址栏中可以看到跳转后的链接地址。不在同一个请求。重定向,实际上客户端会向服务器端发送两个请求。所以转发中数据的存取可以用request作用域:request.setAtt…

    2025年7月11日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号