RBM学习算法

RBM基础

RBM模型是基于能量的模型。对于一组给定的状态 $(v.h)$ ,其能量函数为

E θ (v, h) = - \sum i = 1 N v a i v i - \sum j = 1 N h b j h j - \sum i = 1 N v \sum j = 1 N h h j w j i v i

$E_\theta(v,h)=-\displaystyle \sum_{i=1}^{N_v}a_iv_i-\displaystyle \sum_{j=1}^{N_h}b_jh_j-\displaystyle \sum_{i=1}^{N_v}\displaystyle \sum_{j=1}^{N_h}h_jw_{ji}v_i$ 利用上述能量函数给出

$(v.h)$ 的联合分布为

P θ (v, h) = 1 Z θ e - E θ (v, h)

$P_\theta(v,h)=\frac {1}{Z_\theta}e^{-E_\theta(v,h)}$

其中， $\theta=(W,a,b)$ , $W=[w_{ij}]_{N_v*N_h}$ 表示 $v_i$ 和 $h_j$ 之间的连接权重， $a=(a_1,a_2,...,a_{N_v})$ 、 $b=(b_1,b_2,...,b_{N_h})$ 分别表示观测单元 $v$ ,隐藏单元 $h$ 的偏置。 $Z_\theta=\displaystyle \sum_{v,h}e^{-E_\theta(v,h)}$

RBM的学习算法

求解更好拟合训练数据的RBM参数 $\theta$ ,方法是使用极大似然法，极大似然函数为

L θ = P θ (v) = \sum h P θ (v | h)

$L_\theta=P_\theta (v)=\sum_{h}P_\theta(v|h)$ 设训练样本集合 $S=(v^1,...,v^{N_s})$ ,对数极大似然函数为

ln L θ, S = ln (\prod n = 1 N s P θ (v n)) = \sum n = 1 N s ln P θ (v n)

$\ln L_{\theta ,S}=\ln(\prod_{n=1}^{N_s}P_\theta (v^n))=\sum_{n=1}^{N_s}\ln P_\theta(v^n)$
此时，RBM学习的目标为极大化上式，使用梯度上升(gradient ascent),通过如下的迭代格式来求解

θ : = θ + η \partial ln L θ , S \partial θ

$\theta :=\theta +\eta \frac{\partial \ln L_{\theta,S} }{\partial \theta}$ $\eta$ 是学习率，问题的关键是求解梯度 $\frac{\partial \ln L_{\theta,S} }{\partial \theta}$ ,省略 $L_{\theta,S}$ 中的 $\theta$ ,对于单个样本 $\color{red}{v}$ 计算似然函数

ln L S = ln P (v) = ln (1 Z \sum h e - E (v, h)) = ln \sum h e - E (v, h) - ln Z = ln \sum h e - E (v, h) - ln \sum v, h e - E (v, h)

$\begin{align}\ln L_{S}&=\ln P(\color{red}{v}) \\ &=\ln(\frac{1}{Z}\sum_{h}e^{-E(\color{red}{v},h)}) \\ &=\ln \sum_h e^{-E(\color{red}{v},h)}-\ln Z \\ &=\ln \sum_h e^{-E(\color{red}{v},h)}-\ln \sum_{v,h}e^{-E(v,h)}\end {align}$
上式中红色 $\color{red}{v}$ 表示单个训练样本，黑色 $v$ 表示任意的训练样本。针对单个样本 $\color{red}{v}$ 进一步计算梯度(省略了推导过程)

\partial L S \partial θ = \partial ln P ( v ) \partial θ = - \sum h P (h | v) \partial E ( v , h ) \partial θ + \sum v, h P (v, h) \partial E ( v , h ) \partial θ

$\begin{align}\frac {\partial L_S}{\partial \theta} &=\frac {\partial \ln P(\color{red}v)}{\partial \theta} \\ &=-\sum_hP(h|\color{red}v)\frac {\partial E(\color{red}v,h)}{\partial \theta}+\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial \theta}\end{align}$ 上式中包含两个期望，第一个 $\sum_hP(h|\color{red}v)\frac {\partial E(\color{red}v,h)}{\partial \theta}$ 为能量梯度 $\frac {\partial E(\color{red}v,h)}{\partial \theta}$ 在分布 $P(h|\color{red}v)$ 下的期望，对应每个训练样本数据遍历其可能的隐藏数据的值，可以求得；第二个 $\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial \theta}$ 为能量梯度 $\frac {\partial E(v,h)}{\partial \theta}$ 在分布 $P(v,h)$ 下的期望,对应于每个可能的 $v$ 求其隐藏数据的值，计算量非常大。其中，

\sum v, h P (v, h) \partial E ( v , h ) \partial θ = \sum v \sum h P (v) P (h | v) \partial E ( v , h ) \partial θ = \sum v P (v) \sum h P (h | v) \partial E ( v , h ) \partial θ

$\begin{align}\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial \theta} &=\sum_v \sum_h P(v)P(h|v)\frac{\partial E(v,h)}{\partial \theta} \\ &=\sum_vP(v)\sum_hP(h|v)\frac{\partial E(v,h)}{\partial \theta} \end{align}$ 因此，只需讨论 $\sum_hP(h|v)\frac{\partial E(v,h)}{\partial \theta}$ 的计算，下面对 $\theta=(w_{ij},a_i,b_j)$ 分别进行计算（省略推导过程）

\sum h P (h | v) \partial E ( v , h ) \partial w i j \sum h P (h | v) \partial E ( v , h ) \partial a i \sum h P (h | v) \partial E ( v , h ) \partial b j = - P (h i = 1 | v) v j = - v i = - P (h j = 1 | v)

$\begin{align}\sum_hP(h|v)\frac {\partial E(v,h)}{\partial w_{ij}}&=-P(h_i=1|v)v_j \\ \sum_hP(h|v)\frac {\partial E(v,h)}{\partial a_{i}}&=-v_i \\ \sum_hP(h|v)\frac {\partial E(v,h)}{\partial b_{j}}&=-P(h_j=1|v) \end{align}$ 对于单个训练样本 $\color{red}{v}$ ,各个梯度为

\partial ln P ( v ) \partial w i , j = - \sum h P (h | v) \partial E ( v , h ) \partial w i , j + \sum v, h P (v, h) \partial E ( v , h ) \partial w i , j = P (h i = 1 | v) v j - \sum v P (v) P (h i = 1 | v) v j

$\begin{align}\frac {\partial \ln P(\color{red}v)}{\partial w_{i,j}} &=-\sum_hP(h|\color{red}v)\frac {\partial E(\color{red}v,h)}{\partial w_{i,j}}+\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial w_{i,j}} \\ &=P(h_i=1|\color{red}v)v_j-\sum_vP(v)P(h_i=1|v)v_j \end{align}$

\partial ln P ( v ) \partial a i = - \sum h P (h | v) \partial E ( v , h ) \partial a i + \sum v, h P (v, h) \partial E ( v , h ) \partial a i = v i - \sum v P (v) v i

$\begin{align} \frac {\partial \ln P(\color{red}v)}{\partial a_i} &=-\sum_hP(h|\color{red}v)\frac {\partial E(\color{red}v,h)}{\partial a_i}+\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial a_i} \\ &=\color{red}v_i-\sum_vP(v)v_i\end{align}$

\partial ln P ( v ) \partial b j = - \sum h P (h | v) \partial E ( v , h ) \partial b j + \sum v, h P (v, h) \partial E ( v , h ) \partial b j = P (h i = 1 | v) - \sum v P (v) P (h i = 1 | v)

$\begin{align} \frac {\partial \ln P(\color{red}v)}{\partial b_j} &=-\sum_hP(h|\color{red}v)\frac {\partial E(\color{red}v,h)}{\partial b_j}+\sum_{v,h}P(v,h)\frac {\partial E(v,h)}{\partial b_j} \\ &=P(h_i=1|\color{red}v)-\sum_vP(v)P(h_i=1|v)\end{align}$
以上是针对单个训练样本的情形，在整个样本空间 $S={v^1,...,v^{n_s}}$ 上有 $\frac {\partial L_S}{\partial \theta}=\frac {\partial \ln P(v^m)}{\partial \theta}$ 从而可得如下公式，

\partial ln P ( v ) \partial w i , j \partial ln P ( v ) \partial a i \partial ln P ( v ) \partial b j = \sum m = 1 N s [P (h i = 1 | v m) v m j - \sum v P (v) P (h i = 1 | v) v j] = \sum m = 1 N s [v m i - \sum v P (v) v i] = \sum m = 1 N s [P (h i = 1 | v m) - \sum v P (v) P (h i = 1 | v)]

$\begin{align}\frac {\partial \ln P(v)}{\partial w_{i,j}} &=\sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)\color{red}v^m_j-\sum_vP(v)P(h_i=1|v)v_j ] \\ \frac {\partial \ln P(v)}{\partial a_i} &=\sum_{m=1}^{N_s}[\color{red}v^m_i-\sum_vP(v)v_i] \\\frac {\partial \ln P(v)}{\partial b_j} &=\sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)-\sum_vP(v)P(h_i=1|v)]\end{align}$ 上述三个公式中， $\sum_v$ 项的计算复杂度为 $O(2^{N_v+N_h})$ ,可以通过MCMC方法如Gibbs进行采样，并用样本对 $\sum_v$ 项进行估计。k步Gibbs抽样过程如下

h (0) \leftarrow P (h | v (0)) h (1) \leftarrow P (h | v (1)) . . ., v (1) \leftarrow P (v | h (0)), v (2) \leftarrow P (v | h (1)), v (k) \leftarrow P (v | h (k - 1))

$\begin{align}h^{(0)} \leftarrow P(h|v^{(0)})&,v^{(1)}\leftarrow P(v|h^{(0)}) \\ h^{(1)}\leftarrow P(h|v^{(1)})&,v^{(2)}\leftarrow P(v|h^{(1)}) \\... \ \ \ &,v^{(k)}\leftarrow P(v|h^{(k-1)}) \end{align}$ 这样得到的 $v^{(k)}$ 可以用来估计上式中的 $\sum_v$ 项,根据MCMC采样的思想，将上述三个式子进一步推导，并使用 $v^{(k)}$ 来近似可得

\partial ln P ( v ) \partial w i , j \partial ln P ( v ) \partial a i \partial ln P ( v ) \partial b j = \sum m = 1 N s [P (h i = 1 | v m) v m j - \sum v P (v) P (h i = 1 | v) v j] \approx \sum m = 1 N s [P (h i = 1 | v m) v m j - P (h i = 1 | v (k)) v (k) j] = \sum m = 1 N s [v m i - \sum v P (v) v i] \approx \sum m = 1 N s [v m i - v (k) i] = \sum m = 1 N s [P (h i = 1 | v m) - \sum v P (v) P (h i = 1 | v)] \approx \sum m = 1 N s [P (h i = 1 | v m) - P (h i = 1 | v (k))]

$\begin{align}\frac {\partial \ln P(v)}{\partial w_{i,j}} &=\sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)\color{red}v^m_j-\sum_vP(v)P(h_i=1|v)v_j ]\approx \sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)\color{red}v^m_j-P(h_i=1|v^{(k)})v_j^{(k)} ] \\ \frac {\partial \ln P(v)}{\partial a_i} &=\sum_{m=1}^{N_s}[\color{red}v^m_i-\sum_vP(v)v_i] \approx\sum_{m=1}^{N_s}[\color{red}v^m_i-v_i^{(k)}] \\\frac {\partial \ln P(v)}{\partial b_j} &=\sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)-\sum_vP(v)P(h_i=1|v)] \approx \sum_{m=1}^{N_s}[P(h_i=1|\color{red}v^m)-P(h_i=1|v^{(k)})]\end{align}$ 但是常规的gibbs采样的 $k$ 需要足够大，才能使得采集到的样本符合RBM分布，Hinton教授发明了对比散度(Contrastive Divergence,CD)方法，通过使用训练样本集 $S$ 中的观测数据 $v^i$ 来初始化 $v^{(0)}$ 来减少状态转移次数，具体做法是在算法的开始将可见状态 $v^{(0)}$ 设置为一个训练样本，并使用条件概率 $P(h_j=1|v^{(0)})$ 对每个隐藏单元抽取0~1之间的概率值，然后利用 $P(v_i=1|h^{(0)})$ 对观测单元抽取概率值，这样就得到 $v^{(1)}$ ,一般 $v^{(1)}$ 就够了，即 $k=1$ ,如下是CD-k算法的主要步骤：
$CDK(k,S,RBM();\Delta w,\Delta a,Delta b)$
– 输入： $k,S,RBM(W,a,b)$
– 输出： $D_w,D_a,D_b$
step 1 初始化： $\Delta w=0,\Delta a=0,\Delta b=0$
Step 2 对S中的样本循环生成 $\Delta w,\Delta a,\Delta b$

FOR v∈S DO{ v(0):=vFOR t=0,1,...,k−1 DO{ h(t)=sample_h_given_v(v(t),RBM(w,a,b));v(t+1)=sample_v_given_h(h(t),RBM(w,a,b));}FOR i=1,2,...,Nv;j=1,2,...,Nh DO{ Δwi,j=Δwi,j+[P(hj=1|v(0))v(0)i−P(hj=1|v(k))v(k)i];Δai=Δai+[v(0)i−v(k)i]; Δbj=Δbj+[P(hj=1|v(0))−P(hj=1|v(k))];}}

$\begin{align} &FOR \ v \in S \ DO \\ & \{ \\ &\uad v^{(0)}:=v \\ &\uad FOR \ t=0,1,...,k-1 \ DO \\ &\uad \{ \\ &\uad \uad h^{(t)}=sample\_h\_given\_v(v^{(t)},RBM(w,a,b));\\ &\uad \uad v^{(t+1)}=sample\_v\_given\_h(h^{(t)},RBM(w,a,b));\\ & \uad \} \\ &\uad FOR \ i=1,2,...,N_v;j=1,2,...,N_h \ DO\\ &\uad \{ \\ &\uad \uad \Delta w_{i,j}=\Delta w_{i,j}+[P(h_j=1|v^{(0)})v_i^{(0)}-P(h_j=1|v^{(k)})v_i^{(k)}];\\ &\uad \uad \Delta a_{i}=\Delta a_{i}+[v_i^{(0)}-v_i^{(k)}];\\ &\uad \uad \ \Delta b_{j}=\Delta b_{j}+[P(h_j=1|v^{(0)})-P(h_j=1|v^{(k)})]; \\ & \uad \} \\ &\} \end{align}$ 其中，记 $p_i^h=P（v_i=1|h),i=1,2,...,N_v \$ , $sample\_v\_given\_h$ 的计算可写成

F O R v \in S D O {g e n e r a t e R a d o m r i \in [0, 1]; v i = {1, i f r i < p h i; 0, o t h e r w i s e .}

$\begin{align} &FOR \ v \in S \ DO \\ & \{ \\ &\uad generateRadom \ r_i \in [0,1]; \\ &\uad v_i=\cases{{1,\quad if \ r_i <p_i^h};\\{0, \quad="" otherwise.}}\\="" &\}="" \end{align}="" <="" script=""> sample_h_given_v <script type="math/tex" id="MathJax-Element-730">sample\_h\_given\_v$ 的计算与 $sample\_v\_given\_h$ 类似.
将上述的 $CD-k$ 算法用于完整的RBM算法如下
Step 1 初始化
(1)给定训练样本集合 $S(|S|==N_s)$
(2)给定训练周期 $J$ ,学习率 $\eta$ 以及 $CD-k$ 算法参数 $k$
(3)指定可见层和隐藏层的单元数目 $N_v,N_h$
(4)初始化偏置向量以及权重矩阵 $(a,b,w)$
Step 2 训练

F O R i t e r = 1, 2, . . ., J D O {C D K (k, S, R B M (W, a, b)); U P D A T E W = W + η (1 N s Δ W), a = a + η (1 N s Δ a), b = b + η (1 N s Δ b)}

$\begin{align} &FOR \ iter =1,2,...,J \ DO \\ &\{ \\ &\uad CDK(k,S,RBM(W,a,b)); \\ &\uad UPDATE \ W=W+\eta (\frac {1}{N_s}\Delta W),a=a+\eta (\frac {1}{N_s}\Delta a),b=b+\eta (\frac {1}{N_s}\Delta b) \\ &\} \end{align}$
使用Python实现上述算法的示例

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/224063.html原文链接：https://javaforall.net

RBM学习算法

RBM基础

RBM的学习算法

关于作者

全栈程序员-站长

发表回复

RBM学习算法

RBM基础

RBM的学习算法

关于作者

全栈程序员-站长

相关推荐

killall 后面信号_Linux命令之killall

Gliffy confluence插件的激活成功教程

KOBAS数据库使用指南

LLM学习指南（四）—— 预训练语言模型（PLM） – 教程

C：Altas/Libgdx格式图片拆分工具

web 应用程序_web应用程序是什么意思

发表回复