DeepLearning之LSTM模型输入参数:time_step, input_size, batch_size的理解[通俗易懂]

DeepLearning之LSTM模型输入参数:time_step, input_size, batch_size的理解[通俗易懂]1.LSTM模型输入参数理解(LongShort-TermMemory)lstm是RNN模型的一种变种模式,增加了输入门,遗忘门,输出门。LSTM也是在时间序列预测中的常用模型。小白我也是从这个模型入门来开始机器学习的坑。LSTM的基本概念与各个门的解释已经有博文写的非常详细:推荐博文:【译】理解LSTM(通俗易懂版)这篇文章写的非常详细,生动,概念解释的非常清楚。我也是从这个…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1. LSTM模型 输入参数理解

(Long Short-Term Memory)

lstm是RNN模型的一种变种模式,增加了输入门,遗忘门,输出门。

LSTM也是在时间序列预测中的常用模型。

小白我也是从这个模型入门来开始机器学习的坑。

LSTM的基本概念与各个门的解释已经有博文写的非常详细:推荐博文:【译】理解LSTM(通俗易懂版)

这篇文章写的非常详细,生动,概念解释的非常清楚。我也是从这个博文里开始理解的。


2. 模型参数

  1. 模型的调参是模型训练中非常重要的一部分,调整参数前的重要一步就是要理解参数是什么意思,才能帮助更好的调整参数。
  2. 但是发现在一些实战模型将代码直接放在那里,但是基本参数只是把定义写在哪里,没有生动的解释,我一开始看的时候也是一脸懵逼。
  3. 在我寻找着写参数的额定义的时候,往往看不到让小白一眼就能明白的解释。
  4. 希望从一个小白的角度来讲解我眼中的这些参数是什么意思,如果有不对,还请指出交流。

3. LSTM 的参数输入格式

1. 一般表示为[batch_size, time_step, input_size]

2. 中文解释为[每一次feed数据的行数,时间步长,输入变量个数]


3.1 分开讲解,input_size

  1. 如果你使用7个自变量来预测1个因变量,那么input_size=7,output_size=1
  2. 如果你使用8个自变量来预测3个因变量,那么input_size=8,output_size=3

这个还是比较好理解的,你的输入数据,想要通过什么变量预测什么变量应该是比较清楚的。

难点是另外两个参数的区别。


3.2 分开讲解,batch_size

  1. 如果你的数据有10000行,训练100次把所有数据训练完,那么你的batch_size=10000/100=100
  2. 如果你的数据有20000行,同样训练100次把所有数据训练完,那么你的batch_size=20000/100=200
  3. 如果你的数据有20000行,训练50次把所有数据训练完,那么你的batch_size=20000/50=400
  4. 以此类推
  5. 不过只是举个例子,实际的情况要看你的数据样本,一般的batch_size小于100,来使你的训练结果更好,一次feed太多行数据,模型容易吃撑,消化不良,可能需要健胃消食片,哈哈哈哈

3.3 分开讲解, time_step

最最最最难理解的就是这个time_step了,我也是琢磨了好久。

  1. 首先要知道,time_step是指的哪个过程?
    是不是看到的图都是在画,输入了什么,遗忘了什么,输出了什么,以为每个细胞状态都是1个time_step?
    如果这样的话,那么恭喜你,你和我一样,都是想错了,其实那些一串的流程细胞状态图都是在1个time_step!都是在1个time_step!都是在1个time_step!
  2. 是不是很惊讶,很奇怪?
  3. 那讲的是time_step的内部进行的,而不是在time_step之间。
  4. 换句话说,所谓的t-1的遗留状态也是在一个time_step里面的事情,t多少取决于time_step的取值。

此时,再来看看time_step的本身含义,时间步长,时间步长,那么一定是是和时间有关系啊!!!

4. 重点

4.1 batch_size与time_step

  1. 之前的batch_size中只是规定了一个每次feed多少行数据进去,并没有涵盖一个时间的概念进去,
  2. 而这个参数刚好就是对于时间的限制,毕竟你是做时间序列预测,所以才多了这个参数。
  3. 换句话说,就是在一个batch_size中,你要定义一下每次数据的时间序列是多少?
  4. 如果你的数据都是按照时间排列的,batch_size是100的话,time_step=10
  5. 在第1次训练的时候,是用前100行数据进行训练,而在这其中每次给模型10个连续时间序列的数据。
  6. 那你是不是以为应该是1-10,11-20,21-30,这样把数据给模型?还是不对,请看下图。

4.2 [batch_size, time_step, input_size]=[30,5,7]

time_step=n, 就意味着我们认为每一个值都和它前n个值有关系
在这里插入图片描述

  1. 如果 [batch_size, time_step, input_size]=[30,5,7]
  2. 那么,上图中,黑色框代表的就是一个batch_size中所含有的数据的量。
  3. 那么,从上到下的3个红色框就为 time_step为5的时候,每次细胞输入门所输入的数据量。
  4. 那么,列B~列H,一共7列,就为 input_size

4.3 举例

再看下图
在这里插入图片描述

time_step=n, 就意味着我们认为每一个值都和它前n个值有关系

  1. 假如没有time_step这个参数, [input_size=7,batch_size=30],一共只需要1次就能训练完所有数据。
  2. 如果有,那么变成了 [input_size=7,batch_size=30, time_step=5],需要30-5+1=26,需要26次数据连续喂给模型,中间不能停。
  3. 在26次中每一次都要把上一次产生的y,与这一次的5行连续时间序列数据一起feed进去,再产生新的y
  4. 以此往复,直到此个batch_size 结束。

结语

1. input_size 是根据你的训练问题而确定的。

2. time_step是LSTM神经网络中的重要参数,time_step在神经网络模型建好后一般就不会改变了。

3. 与time_step不同的是,batch_size是模型训练时的训练参数,在模型训练时可根据模型训练的结果以及loss随时进行调整,达到最优。


非常感谢以下作者,让我慢慢理解了参数意义,才有了以上学习笔记!

参考资料:

菜鸡的自我拯救,RNN 参数理解

视觉弘毅,RNN之多层LSTM理解

MichaelLiu_dev,理解LSTM(通俗易懂版)

Andrej Karpathy,The Unreasonable Effectiveness of Recurrent Neural Networks

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/197633.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Flashfxp 3.4的注册码

    Flashfxp 3.4的注册码FLASHFXP0wC2kbML0wAAAADEW5MNJwTnsl790jgG5F4CTA4jUAdMi66HHqFbShaEpEGXzjtFkAERmtW1wZmK/Vr9KMEMtWcIOXrEECP9avIvc1nfQxdTWr1V4KCB3zPf2djj/s4+66IIFDE2TtaVk88VxI1JlVz+7GX4vCjZhDeN2zwKOnKYnwEHVbXs4S06bzpo7kJ…

    2022年7月26日
    7
  • PCR雷达传感器感应_倒车雷达传感器在哪里

    PCR雷达传感器感应_倒车雷达传感器在哪里一.设备唤醒i》检测人靠近设备ii》无视穿越的人员iii》可做手势识别应用场景:智能音箱;笔记本;广告机;投影仪;灯具;控制面板开关独特算法:1》 检测静止不动的人员,内置检测人的呼吸信号。图示为雷达传感器抓取人呼吸的信号在0.3-0.35hz效果。2》 可过滤快速移动物体干扰,内置仅对慢速移动检测,图示效果为雷达传感器过滤风扇对测试的影响。二.车内人员检测欧洲新车评估计划(EuroNCAP)计划在2022年将儿童存在检测纳入全面评级。测试评估分析:1岁婴儿睡在儿童保护座椅上

    2022年9月29日
    3
  • WeakHashMap,源码解读[通俗易懂]

    WeakHashMap,源码解读[通俗易懂]概述WeakHashMap也是Map接口的一个实现类,它与HashMap相似,也是一个哈希表,存储key-valuepair,而且也是非线程安全的。不过WeakHashMap并没有引入红黑树来尽量规避哈希冲突带来的影响,内部实现只是数组+单链表。此外,WeakHashMap与HashMap最大的不同之处在于,WeakHashMap的key是“弱键”(weakkeys),即当一个key不再正…

    2022年5月31日
    30
  • winscp链接linux网络错误被决绝,解决了winscp连接不上的问题

    winscp链接linux网络错误被决绝,解决了winscp连接不上的问题在windows系统和虚拟机装的linux上互传文件时,可以用winscp。第一次用winscp时,老是连接不到linux上。但是两个系统都可以上网,还能ping通。还以为是端口22被什么进程占用。我的是windows2003的,虚拟机是redhatlinux9.0的。昨天下午又试试了,就解决这个问题啦。2.把linux里的防火墙给关了。步骤:在终端输入setup,在防火墙选择处,选择“无防…

    2022年9月15日
    4
  • 不同维度矩阵相乘[通俗易懂]

    不同维度矩阵相乘[通俗易懂]在深度学习中经常会遇到不同维度的矩阵相乘的情况,本文会通过一些例子来展示不同维度矩阵乘法的过程。总体原则:在高维矩阵中取与低维矩阵相同维度的分片来与低维矩阵相乘,结果再按分片时的顺序还原为高维矩阵。相乘结果的维度与原来的高维矩阵一致。二维乘一维三维乘一维三维乘二维…

    2025年6月18日
    4
  • idea for mac 2019版本 激活码破解方法

    idea for mac 2019版本 激活码破解方法,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月14日
    34

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号