多层感知器神经网络实例_多层感知器与bp神经网络

多层感知器神经网络实例_多层感知器与bp神经网络作者|VivekPatel编译|Flin来源|towardsdatascience除非你能学习到一些东西,否则不要重复造轮子。强大的库已经存在了,如:TensorFlow,PyTorch,Keras等等。我将介绍在Python中创建多层感知器(MLP)神经网络的基本知识。感知器是神经网络的基本组成部分。感知器的输入函数是权重,偏差和输入数据的线性组合。具体来说:in_j=weightinput+bias.(in_j=权重输入+偏差)。在每个感知器上,我们都可以指定一个激活函数g。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

作者|Vivek Patel 编译|Flin 来源|towardsdatascience

多层感知器神经网络实例_多层感知器与bp神经网络

除非你能学习到一些东西,否则不要重复造轮子。

强大的库已经存在了,如:TensorFlow,PyTorch,Keras等等。我将介绍在Python中创建多层感知器(MLP)神经网络的基本知识。

感知器是神经网络的基本组成部分。感知器的输入函数是权重,偏差和输入数据的线性组合。具体来说:in_j = weight input + bias.(in_j =权重输入+偏差)。在每个感知器上,我们都可以指定一个激活函数g。

激活函数是一种确保感知器“发射”或仅在达到一定输入水平后才激活的数学方法。常见的非线性激活函数为S型,softmax,整流线性单位(ReLU)或简单的tanH。

激活函数有很多选项,但是在本文中我们仅涉及Sigmoid和softmax。

图1:感知器 多层感知器神经网络实例_多层感知器与bp神经网络

对于有监督的学习,我们稍后将输入的数据通过一系列隐藏层转发到输出层。这称为前向传播。在输出层,我们能够输出预测y。通过我们的预测y*,我们可以计算误差| y-y | 并使误差通过神经网络向后传播。这称为反向传播。通过随机梯度下降(SGD)过程,将更新隐藏层中每个感知器的权重和偏差。

图2:神经网络的基本结构 多层感知器神经网络实例_多层感知器与bp神经网络

现在我们已经介绍了基础知识,让我们实现一个神经网络。我们的神经网络的目标是对MNIST数据库中的手写数字进行分类。我将使用NumPy库进行基本矩阵计算。

在我们的问题中,MNIST数据由 [748,1] 矩阵中的8位颜色通道表示。从本质上讲,我们有一个 [748,1] 的数字矩阵,其始于[0,1,…. 255],其中0表示白色,255表示黑色。

结果

MNIST手写数字数据库包含60,000个用于训练目的的手写示例和10,000个用于测试目的的示例。在对60,000个示例进行了30个epoch的训练之后,我在测试数据集上运行了经过训练的神经网络,并达到了93.2%的准确性。甚至可以通过调整超参数来进一步优化。

多层感知器神经网络实例_多层感知器与bp神经网络

它是如何工作的?

本文分为5个部分。这些部分是:

(1)激活函数 (2)权重初始化 (3)偏差初始化 (4)训练算法 (5)进行预测

1. 激活函数

Sigmoid是由等式1 /(1+ exp(-x))定义的激活函数,将在隐藏层感知器中使用。

Softmax是一个激活函数,当我们要将输入分为几类时,它通常在输出层中使用。在我们的例子中,我们希望将一个数字分成10个bucket[0,1,2,…,9]中的一个。它计算矩阵中每个条目的概率;概率将总计为1。具有最大概率的条目将对应于其预测,即0,1,…,9。Softmax定义为exp(x)/ sum(exp(x))。

图3:激活函数的实现 多层感知器神经网络实例_多层感知器与bp神经网络

2. 权重初始化

对于我们的每个隐藏层,我们将需要初始化权重矩阵。有几种不同的方法可以做到这一点,这里是4。

  1. 零初始化-初始化所有权重= 0。

  2. 随机初始化-使用随机数初始化权重,而不是完全随机。我们通常使用标准正态分布(均值0和方差1)中的随机数。

  3. Xavier初始化-使用具有设定方差的正态分布中的随机数初始化权重。我们将基于上一层的大小设置方差。

如上所述,进入感知器的边缘乘以权重矩阵。关键的一点是,矩阵的大小取决于当前图层的大小以及它之前的图层。明确地,权重矩阵的大小为[currentLayerSize,previousLayerSize]。

如上所述,进入感知器的边缘乘以权重矩阵。关键的一点是,矩阵的大小取决于当前图层的大小以及它之前的图层。明确地,权重矩阵的大小为[currentLayerSize,previousLayerSize]。

假设我们有一个包含100个节点的隐藏层。我们的输入层的大小为[748,1],而我们所需的输出层的大小为[10,1]。输入层和第一个隐藏层之间的权重矩阵的大小为[100,748]。隐藏层之间的每个权重矩阵的大小为[100,100]。最后,最终隐藏层和输出层之间的权重矩阵的大小为[10,100]。

出于教育目的,我们将坚持使用单个隐藏层;在最终模型中,我们将使用多层。

图4:权重初始化实现 多层感知器神经网络实例_多层感知器与bp神经网络

3. 偏差初始化

像权重初始化一样,偏置矩阵的大小取决于图层大小,尤其是当前图层大小。偏置初始化的一种方法是将偏置设置为零。

对于我们的实现,我们将需要为每个隐藏层和输出层提供一个偏差。偏置矩阵的大小为[100,1],基于每个隐藏层100个节点,而输出层的大小为[10,1]。

图5:偏置初始化实现 多层感知器神经网络实例_多层感知器与bp神经网络

4. 训练算法

前面已经说过,训练是基于随机梯度下降(SGD)的概念。在SGD中,我们一次只考虑一个训练点。

在我们的示例中,我们将在输出层使用softmax激活。将使用“交叉熵损失”公式来计算损失。对于SGD,我们将需要使用softmax来计算交叉熵损失的导数。也就是说,此导数减少为y* -y,即预测y*减去期望值y。

图6:关于softmax激活的交叉熵损失及其导数 多层感知器神经网络实例_多层感知器与bp神经网络

我们还需要编写S型激活函数的导数。在图7中,我定义了S型函数及其衍生函数

图7:Sigmoid函数(上)及其导数(下) 多层感知器神经网络实例_多层感知器与bp神经网络

通常,神经网络将允许用户指定几个“超参数”。在我们的实施中,我们将着重于允许用户指定epoch,批处理大小,学习率和动量。还有其他优化技术!

  1. 学习率(LR):学习率是一个参数,用户可以通过它指定网络允许我们学习和更新其参数的速度。选择一个好的学习率是一门艺术。如果LR太高,我们可能永远不会收敛于良好的可接受的训练错误。如果LR太低,我们可能会浪费大量的计算时间。

  2. epoch:epoch是整个训练集中的一个迭代。为了确保我们不会过度拟合早期样本中的数据,我们会在每个时期之后对数据进行随机排序。

  3. 批次大小:通过Epoc2h的每次迭代,我们将分批训练数据。对于批次中的每个训练点,我们将收集梯度,并在批次完成后更新权重/偏差。

  4. 动量:这是一个参数,我们将通过收集过去的梯度的移动平均值并允许在该方向上的运动来加速学习。在大多数情况下,这将导致更快的收敛。典型值范围从0.5到0.9。

下面,我编写了一些通用的伪代码来模拟反向传播学习算法的概况。为了便于阅读,已将诸如计算输出和将训练数据分成批次之类的任务作为注释编写。

多层感知器神经网络实例_多层感知器与bp神经网络

现在,我们将展示伪代码的实现. 多层感知器神经网络实例_多层感知器与bp神经网络

5. 做出预测

现在,我们仅缺少此实现的一个关键方面。预测算法。在编写反向传播算法的过程中,我们已经完成了大部分工作。我们只需要使用相同的前向传播代码即可进行预测。输出层的softmax激活函数将计算大小为[10,1]的矩阵中每个条目的概率。

我们的目标是将数字分类为0到9。因此,aj2矩阵的索引将与预测相对应。概率最大的索引将由np.argmax()选择,并将作为我们的预测。

多层感知器神经网络实例_多层感知器与bp神经网络

结论

这就对了!我们结束了。我们已经用Python编写了神经网络的实现。

但是,我们如何选择最佳参数?我们可以使用算法的一般知识来选择有意义的超参数。我们需要选择能概括但不能过度拟合数据的超参数。我们可以调整动量,学习率,时期数,批处理大小和隐藏节点的数量,以实现我们的目标。向前迈出一步,我们可以编写更多算法来为我们做这件事!

遗传算法是一种AI算法,可用于选择最佳参数。遗传算法的思想是创建一组具有不同参数的子代,并让他们产生与参数相关的测试错误。我们可以对具有最佳超参数的神经网络进行繁殖和变异,以找到性能更好的参数。花费大量时间后,我们将能够学习有关超参数情况的大量知识,并找到新的最佳超参数值。

我们还可以采取其他措施来减少测试错误吗?是的,我们可以缩放输入数据。像许多算法一样,数量更多会对算法的结果产生重大影响。在我们的示例中,数字范围为[0到255]。如果我们按比例缩放数字,使它们的范围从[0到1],则可以减少该偏差。

感谢你的阅读!

原文链接:https://towardsdatascience.com/implementing-a-multi-layer-perceptron-neural-network-in-python-b22b5a3bdfa3

欢迎关注磐创AI博客站: http://panchuang.net/

sklearn机器学习中文官方文档: http://sklearn123.com/

欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/179060.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Java 程序员常用的开发工具

    Java 程序员常用的开发工具1、常用开发工具作为一名Java程序开发人员,可以的选择集成开发环境IDE(IntegratedDevelopmentEnvironment)非常多,得益于Java是一门开源语言。有开源免费的;有商用收费的。如何选择一款适合自己的集成开发环境,亦或说选择一款符合自己项目开发需要的集成开发环境。如果选择得当,那么就能够使得开发工作事半功倍;否则事倍而功半。 免费开源EclipseEclipse最…

    2022年7月7日
    29
  • html如何设置ie6兼容性视图,IE6浏览器兼容性视图设置在哪里[通俗易懂]

    html如何设置ie6兼容性视图,IE6浏览器兼容性视图设置在哪里[通俗易懂]ie6浏览器算是旧版本了,如果你想要设置兼容性视图,该怎么设置呢?下面由学习啦小编为大家整理了IE6浏览器的兼容性视图设置在哪里的方法,希望对大家有帮助!IE6浏览器兼容性视图设置在哪里IE6兼容性视图设置的方法和步骤如下打开电脑后,在开始菜单中,选种【所有程序】,在程序列表中,会看到InternetExplorer浏览器,显示的WIN7操作系统的操作图,如图点击IE浏览器,打开浏览器后,默认登…

    2022年9月7日
    0
  • npm run build: rimraf: command not found

    npm run build: rimraf: command not found当出现以下构建失败的情况时:npmrunbuild>new-proj@0.0.1prebuil>rimrafdistsh:rimraf:commandnotfound可以先执行npminstallrimraf再执行npminstall再次构建npmrunbuild

    2022年10月24日
    0
  • SpringBoot实战第六章-Spring Boot核心

    SpringBoot实战第六章-Spring Boot核心

    2021年5月16日
    108
  • p2p文件服务器,P2P文件传输

    p2p文件服务器,P2P文件传输>网络中的应用,存在两种主流的体系结构。一种是C-S体系,另一种是P2P(对等网)体系。#C-S体系C-S体系是应用很广泛的应用程序体系,如Web应用。在C-S体系中,服务器承担着巨大的责任,需要处理大量的客户端请求,如文件下载请求,这种体系之间**客户端不能直接通信**,而是通过服务器传达。#P2P体系P2P,即peer-to-peer,意思是对等网络。P2P区分于C-S的就是这种体…

    2022年7月16日
    11
  • python输入的字符串转换为数字类型_python字符串转int

    python输入的字符串转换为数字类型_python字符串转intpython数字类型和字符串类型的相互转换实例一、python中字符串转换成数字(方法1)类中进行导入:importstringstr=’555’num=string.atoi(str)num即为str转换成的数字转换为浮点数:string.atof(str)(方法2)直接intint(str)即可。二、数字转换成字符串num=322str=’%d’%numstr即为num转换成的字符串以上这…

    2022年10月9日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号