感知机模型

全栈程序员-站长 • 2026年3月26日下午9:30 • 未分类 • 阅读 2

感知机模型

本内容为《统计学习方法》学习笔记，会不定时更新

1、感知机学习策略

统计学习方法的策略即寻找一个损失函数进行建模。因为感知机的目标是将给定的样本划分为两个类，因此可以使用每个样本到超平面的距离作为度量标准。如果给定一个样本点 $x_i=(x_i^{(1)},x_i^{(2)},…)$ ，距离函数定义为 $\frac{1}{||w||}|wx_i+b|$ 。
如果假设样本被错误分类，可知感知机 $f(x_i)$ 与实际类 $y_i\in\{-1,+1\}$ 的值恰好相反，即 $y_if(x_i)=1$ ，如果去掉符号函数来定量的描述错误样本与超平面的距离，则有 $y_i(wx_i+b)>0$ 。事实上，如果样本被正确的分类，我们大可不必要去度量它与超平面距离，所以感知机分类时，我们只关心那些错误分类的样本。自然，在初始化某一个 $w_0,b_0$ 时，感知机模型即可判断有多少样本点被错误分类，这些样本组成一个动态的集合 $M$ 。经验损失函数则为：

$-\frac{1}{||w||}\sum_{x_i\in M}y_i(wx_i+b)$

其中 $∣ ∣ w ∣ ∣$ 是二范式，一般来说，损失函数可去掉这个二范式，即 $-\sum_{x_i\in M}y_i(wx_i+b)$

2、感知机算法

感知机算法的目标就是最小化损失函数，每一次迭代过程中，更新被误分类的样本集合 $M$ ，采用随机梯度下降法，每次从集合中挑选一个样本来进行参数更新。算法为：

在这里插入图片描述
因为对于所有误分类的样本，损失函数是一个大于0的连续函数，即具有可微可导性质。对某一个样本产生的损失函数 $L=-y_i(wx_i+b)$ 对参数 $w, b$ 分别求导：

$\frac{\partial L}{\partial w} = -y_ix_i$

$\frac{\partial L}{\partial b} = -y_i$

因此梯度下降更新公式 $w=w-\eta\Delta w=w+\eta y_ix_i$ ， $b=b-\eta\Delta b=w+\eta y_i$ 。由算法可知，当集合 $M$ 为空时，算法结束。

另外感知机的对偶形式如下所示：

在这里插入图片描述
另外，感知机是否可以来表示异或问题呢？先考虑一下异或关系：对于一个二元数 $a, b$ ，如果 $a = 1, b = 1$ ，则异或的结果为0，如果 $a = 1, b = 0$ 则异或的结果为1，因此以二元 $(0, 0), (0, 1), (1, 0), (1, 1)$ 为例，其异或分别为0，1，1，0，可发现这四个点并不是线性可分的。