深度学习入门系列1：多层感知器概述

全栈程序员-站长 • 2025年11月11日上午8:22 • 未分类 • 阅读 3

深度学习入门系列1：多层感知器概述本人正在学习《deeplearningwithpython》–JasonBrownlee，有兴趣的可以一起学习。人工智能系列1：多层感知器概述待更新：人工智能系列2:用Keras构建你的第一个神经网络人工智能系列3:深度学习模型性能评价人工智能系列4:使用keras模型与scikit-learn进行通用机器学人工智能系列5:项目：花种的多分类人工智能系列6:项目：声纳二分类人工智能系列7:项目：波士顿房屋价格回归人工智能系列8:保存模型以便稍后进行序列化人工智能系列9:训练期.

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

本人正在学习《deep learning with python》–Jason Brownlee，有兴趣的可以一起学习。
仅供学习参考，不做商用！

大家好，我技术人Howzit，这是深度学习入门系列第一篇，欢迎大家一起交流！

虽然人工神经网络刚开始学习时有点难，但是它仍是一个令人着迷的研究领域。在描述整个领域的数据结构和算法时，使用了许多术语。在这节课，你将带你快速学习多层感知器人工神经网络领域所使用的术语以及过程。完成课程后，你将了解：

构建神经网络块，包括神经元，权重和激活函数。
如何在层中使用构建块创建网络。
如何从样本数据训练网络

让我们开始吧

1.1 概述

在这节课，我们将涵盖很多方面：

多层感知器
神经元，权重和激活函数
神经元网络
训练网络

我们将从多层感知器概述开始。

1.2 多层感知器

在它成为最具有使用价值的神经网络之前，人工神经网络领域经常被叫做神经网络或者多层感知器。一个感知器是一个单神经元模型，它是大型神经网络的前生。这个领域主要研究如何使用生物大脑的简单模型解决复杂计算任务，就像我们看到机器学习中看到预测模型任务一样。其目标不是构建一个真是人脑模型，而是开发一个鲁棒性更高的算法和数据结构，能够对复杂问题进行建模。
神经网络的力量来自于从训练集中学习表示（presentation）的能力，并如何更好的将我们想预测的输出变量与之关联起来。从某种意义上讲，神经网络学习是一种映射关系。从数学的角度，它能够学习任意映射函数，并被证明是一个广泛的近似算法。神经网络模型的预测能力来自于网络的层级或者多层结构。这种数据结构能够在不同大小或者分辨率中挑选出（学习表示）特征并把他们组成高阶的特征。例如，从线到线的集合，到图形。

1.3 神经元

对于神经网络，其组成部分是人工神经元，每个人工神经元，我们称之为计算单元，这些简单计算单元由带有权重的输入信号和使用激活函数的输出信号组成。
感知器

1.3.1 神经元权重

你可能比较熟悉线性回归，上面的例子中，输入端的权重和归回等式中的系数非常的类似。

你可以理解为一元一次函数：y=ax+b

如线性回归，每个神经元都有一个偏置常数，这个常数在输入端始终是1.0并且它也必须加权。

例如，一个神经元有两个输入端，这种情况需要三个权重，每个输入端对应一个，另外一个对应是偏置常数。

犹如：y=ax+bz+c，其中c为偏置常数，a，b为权重，x，z为输入端

虽然有复杂的初始化模式可用，但是权重一般还是被随机初始化一个很小的值，一般在0-0.3之间。如线性模型，大权重会增加了模型的复杂度和脆弱性，因此在网络中使用小权重和正则化技术是明智的选择。

1.3.2 激活函数

将输入端进行加权求和并传入激活函数又称之为转换函数。激活函数是一个从加权输入求和到神经元输出的简单映射，它被叫做激活函数，是因为它管理着神经元被激活和输出信号强度的阈值。例如，阈值0.5,如果输出之和高于阈值，神经元输出输出求和为1.0，否则输出为0.0。

从传统方法的来看，也可以使用非线性激活函数，它让网络以更为复杂的方法把输入端组合起来，反过来，它们可以在构建的函数上提供更丰富的能力。非线性函数像逻辑函数叫做sigmod函数，它是s形分布，输出值在0-1之间，还有双曲正切函数称之为Tanh，也是同样的分布，范围在-1和1之间。最近整流器（rectifier）激活函数展示出更好的效果。

1.4 神经元网络

神经元组成了神经元网络。每一行神经元称之为一层，而一个网络又多层。在网络中神经元的结构经常被称之为网络拓扑结构。
多层感知器

1.4.1 输入层/可见层

输入数据集的底层称之为可见层，因为它直接暴露神经网络的一部分。一个神经网络的可见层通常由神经元输入值或者数据集中的列组成。这些神经元与上面描述的神经元不同，只是将输入值传递给下一层。

1.4.2 隐藏层

在输入层后面的层是隐藏层，因为他们没有直接接触输入端。最简单网络结构是在隐藏层中有一个神经元并直接输出一个值。鉴于计算力和有效库增多，可以构建非常深的神经网路。深度学习指的是有多层隐藏层的神经网络。他们很深，因为训练时慢的超乎你的想象，但是使用现有技术和硬件可能只需几秒或者几分钟就能完成。

1.4.3 输出层

最后的隐藏层叫做输出层并负责输出对应问题格式的值或者向量。在输出层激活函数的选择与你建模问题的类型是强相关。例如：

回归问题有一个单个输出神经元并且这个神经元没有激活函数。
一个二分类问题有个一个单输出神经元，使用的 sigmoid 激活函数，输出一个0-1之间值，其值代表预测主类的概率。
多分类问题在输出层有多个神经元，一个代表一个类（如，在著名的iris花分类问题上，三个分类，有三个神经元）。在这个例子中，使用softmax函数来输出网络的概率，用于每个类的值。选择最高概率值就是crisp类的值

1.5 训练网络

神经网络一旦配置好了，就可以在数据集上训练。

1.5.1 准备数据

为了训练神经网络，你必须要准备好训练的数据。数据必须是数字的，如实数。如果有分类数据，如性别属性，男和女，那么你可以把它转成实数表示，这个过程称之为 one-hot 编码。为每类新增一列（男女两列）而且根据行的类型为每行添加0或者1。
这种one-hot 编码也同样应用在多分类问题的输出变量上。这能够创建一个单列的二维向量，这样更容易直接和网络输出层的神经元做对比，正如上面描述的，为每个类输出一个值，而神经网络需要对输入端进行调整。你可以重新将输入端的值调整在0-1之间，这过程称之为正则化（normalization）。另外一项流行的正则化技术是每列遵循均值为0，标准差为1的分布。正则化技术也能应用于图像数据，以及其他数据，如能够转化为整数的单词，数据集中的单词频率。还有其他编码技术。

1.5.2 随机梯度下降

经典且首选的神经网络训练算法就是随机梯度下降算法。这是一行数据作为神经网络输入的地方。神经网络向上处理输入的神经元，它最终产生一个输出值。这叫做神经网络前向传输。这个传输过程也会在被训练的网络使用，目的是在新数据上做预测。
神经网络输出值和期望值作比较，并计算误差。这个误差通过网络反向传回去，一次一层，根据他们贡献错误的总和来更新权重。这个聪明的数学运算被称为反向传播算法。这个过程在训练集上不断重复。整个训练集更新一次叫做一次迭代。一个神经网络可能训练几十代，几百代，或成千代。

1.5.3 权重更新

神经网络的权重更新来自于每次训练对样本误差的计算。这叫做在线学习。这会导致网络变化快但混乱，或者保存所有的训练样本过程中的误差并在最后更新神经网络。这叫做批量学习，更平稳。因为数据集如此大，并且由于计算效率，在更新之前网络的样本数量，批量大小通常减少到少量，如成百或者成千个样例。权重总和的更新是由一个配置参数学习速率控制的，它也叫作步长，控制神经网络权重误差的步长或者变化。学习速度一般是0.1或则0.01或者更小。更新等式可以通过其他配置来补充。

动量是融合了先前重量更新的属性，即使在计算的误差较少时，也允许权重在相同方向上继续变化。
学习速度衰减 用于随着不断的迭代减少学习速率大小，以至于在开始训练时有更大的权重修改，在后期对权重进行精细的调整。

1.5.4 预测

一旦神经网络被训练好，他就能用于预测。你可以在测试或则验证数据上预测，为了估计在未标记数据上模型的能力。你可以部署它并用它不断做预测。所有来自模型的网络拓扑结构和最后权重集合都需要保存。通过向网络提供输入并执行前向传播来进行预测，从而允许它生成可用作预测的输出。

1.6 总结

在本课程中，您学习了用于机器学习的人工神经网络。你已经学的：

神经网络不是人脑模型，而是解决复杂机器学习问题的计算模型。
神经网络是由带有权重和激活函数的神经元组成的。
神经网络是由神经元层组织而且采用随机梯度进行训练的。
在训练一个神经网络前要提前准备好数据。

1.6.1 接下来

你现在已经了解到神经网络模型的基本知识，在接下来的部分，你将首先用keras构建第一个多层感知器。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/194172.html原文链接：https://javaforall.net

学习

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

PyCharm 中文指南和快捷键总结-PyCharm手册-20200923

上一篇 2025年11月11日上午8:15

舆情大数据系统_大数据舆情分析工具有哪些

下一篇 2025年11月11日上午8:43

豆包

字节火山引擎推出命令行 AI 智能体 veCLI，终端访问豆包大模型

字节火山引擎推出命令行 AI 智能体 veCLI，终端访问豆包大模型

全栈程序员-站长
2026年3月12日
3
0xc0000225无法进系统_系统重装|电脑无法开机蓝屏错误代码0xc0000225故障问题「建议收藏」

0xc0000225无法进系统_系统重装|电脑无法开机蓝屏错误代码0xc0000225故障问题「建议收藏」在重装系统的过程中，因为电脑机型，操作等因素，可能会导致重装系统出现一些问题。有的用户重装系统后发现电脑无法开机，显示蓝屏错误代码0xc0000225。为什么会出现这种情况呢？应该如何解决？下面就让小编为大家带来电脑无法开机蓝屏错误代码0xc0000225故障问题。一、原因分析：出现这样的现象是由于系统BCD文件被损坏或者说已经丢失了，通常都是一些用户在UEFI模式下安装GHOST系统导致的。，可…

全栈程序员-站长
2022年6月26日
82
finalize方法_final与finalize区别

finalize方法_final与finalize区别当对象没有引用指向时，虚拟机会按照一定的垃圾回收机制算法来调用finalize方法将该对象回收，并不是只要没有引用对象就会被回收。因此，可以调用System.gc()方法来主动调用垃圾回收机制，但也并不能保证一定能成功。在调用时，程序并不会阻塞在此处，而是会继续向下执行。默认的object类中的finalize方法是不作其余处理的。可以重写finalize方法来实现自己想要的资源释放操作，比如数据库连接等。…

全栈程序员-站长
2026年1月25日
6
深度图像基础知识（一）[通俗易懂]

深度图像基础知识（一）[通俗易懂]深度图像（depthimage)也被称为距离影像（rangeimage），是指将从图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像经过坐标转换可以计算为点云数据，有规则及必要信息的点云数据也可以反算为深度图像数据。深度数据流所提供的图像帧中，每一个像素点代表的是在深度感应器的视野中，该特定的（x,y）坐标处物体到离摄像头平面最近的

全栈程序员-站长
2022年4月25日
52
列式存储与行式存储

列式存储与行式存储列式存储与行式存储区别目前大数据存储有两种方案可供选择行存储 Row Based 和列存储 Column Based 大数据时代大部分的查询模式决定了列式存储优于行式存储两者的区别在于如何组织表 Row basedstorage Column basedstorage

全栈程序员-站长
2026年1月21日
2
idea

IntelliJ IDEA使用教程（新手入门–持续更新）[通俗易懂]

IntelliJ IDEA使用教程（新手入门–持续更新）[通俗易懂]idea使用教程一、下载安装二、基础配置及插件安装1.基础配置1.1配置jdk1.2配置maven1.3配置git1.4开启自动编译1.5调整字体（参照配置入口，大家可以根据喜好自行调整,记得调整完每一步都要点击apply）1.6取消大小写敏感，取消勾选1.7设置统一编码为utf-82、插件下载2.1[Mybatis](https://how2j.cn/k/mybatis/mybatis-tutorial/1087.html)2.2[Lombok](https://www.zhihu.com/q

全栈程序员-站长
2022年8月29日
9