FM/FFM

FM/FFMFM背景及相关算法对比(1)FM(factorizationmachine)是在LR(logisticregression)基础上,加入了特征的二阶组合项;(2)SVM和FM的主要区别在于,SVM的二元特征交叉参数是独立的,如wijw_{ij}wij​,而FM的二元特征交叉参数是两个k维的向量vi、vjv_i、v_jvi​、vj​,即<vi,vj>&lt…

大家好,又见面了,我是你们的朋友全栈君。

FM

FM算法的提出旨在解决稀疏数据下的特征组合问题。
y = w 0 + ∑ i = 1 n w i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n w i j x i x j , ( w 0 , w i , w i j ∈ R ) y=w_0+\sum\limits_{i=1}^n w_i x_i+\sum\limits_{i=1}^{n-1}\sum\limits_{j=i+1}^n w_{ij}x_i x_j,(w_0, w_i, w_{ij}\in R) y=w0+i=1nwixi+i=1n1j=i+1nwijxixj(w0,wi,wijR)
分解 w i j = &lt; v i , v j &gt; = ∑ k = 1 K v i k v j k \displaystyle w_{ij}=&lt;v_i,v_j&gt;=\sum\limits_{k=1}^{K}v_{ik}v_{jk} wij=<vi,vj>=k=1Kvikvjk
∑ i = 1 n − 1 ∑ j = i + 1 n w i j x i x j = 1 2 ( ∑ i = 1 n ∑ j = 1 n w i j x i x j − ∑ i = 1 n w i i x i 2 ) = 1 2 ( ∑ i = 1 n ∑ j = 1 n ∑ k = 1 K v i k v j k x i x j − ∑ i = 1 n ∑ k = 1 K v i k 2 x i 2 ) \displaystyle\sum\limits_{i=1}^{n-1}\sum\limits_{j=i+1}^n w_{ij}x_i x_j=\frac{1}{2}\Big(\sum\limits_{i=1}^{n}\sum\limits_{j=1}^n w_{ij}x_i x_j-\sum\limits_{i=1}^n w_{ii}x^2_i\Big)=\frac{1}{2}\Big(\sum\limits_{i=1}^{n}\sum\limits_{j=1}^n \sum\limits_{k=1}^{K}v_{ik}v_{jk}x_i x_j-\sum\limits_{i=1}^n \sum\limits_{k=1}^{K}v^2_{ik}x^2_i\Big) i=1n1j=i+1nwijxixj=21(i=1nj=1nwijxixji=1nwiixi2)=21(i=1nj=1nk=1Kvikvjkxixji=1nk=1Kvik2xi2)
= 1 2 ∑ k = 1 K ( ( ∑ i = 1 n v i k x i ) ( ∑ j = 1 n v j k x j ) − ∑ i = 1 n ( v i k x i ) 2 ) = 1 2 ∑ k = 1 K ( ( ∑ i = 1 n v i k x i ) 2 − ∑ i = 1 n ( v i k x i ) 2 ) \displaystyle=\frac{1}{2}\sum\limits_{k=1}^{K}\Big((\sum\limits_{i=1}^{n} v_{ik}x_i) (\sum\limits_{j=1}^n v_{jk}x_j)-\sum\limits_{i=1}^n (v_{ik}x_i)^2\Big)=\frac{1}{2}\sum\limits_{k=1}^{K}\Big((\sum\limits_{i=1}^{n} v_{ik}x_i)^2-\sum\limits_{i=1}^n (v_{ik}x_i)^2\Big) =21k=1K((i=1nvikxi)(j=1nvjkxj)i=1n(vikxi)2)=21k=1K((i=1nvikxi)2i=1n(vikxi)2)
其中 v i = ( v i 1 , v i 2 , ⋯ &ThinSpace; , v i K ) v_i=(v_{i1},v_{i2},\cdots,v_{iK}) vi=(vi1,vi2,,viK)是第 i i i维特征的隐向量。【1】隐向量的长度为 k ( k &lt; &lt; n ) k(k&lt;&lt;n) kk<<n,包含 k k k个描述特征的因子。由上可见,二次项的参数数量减少为 k n kn kn个,远少于多项式模型的参数数量。即通过矩阵分解,二次项可以化简,复杂度可以从 O ( k n 2 ) O(kn^2) O(kn2)优化到 O ( k n ) O(kn) O(kn)。【2】参数因子化使得 x h x i x_h x_i xhxi的参数和 x i x j x_i x_j xixj的参数不再是相互独立的,因此可以在样本稀疏的情况下相对合理地估计FM的二次项参数。具体来说, x h x i x_h x_i xhxi x i x j x_i x_j xixj的系数分别为 &lt; v h , v i &gt; &lt;v_h,v_i&gt; <vh,vi> &lt; v i , v j &gt; &lt;v_i,v_j&gt; <vi,vj>,它们之间有共同项 v i v_i vi。也就是说,所有包含“ x i x_i xi的非零组合特征”(存在某个 j ≠ i j\neq i j̸=i,使得 x i x j ≠ 0 x_i x_j\neq 0 xixj̸=0)的样本都可以用来学习隐向量 v i v_i vi,这很大程度上避免了数据稀疏性造成的影响。而在多项式模型中, w h i w_{hi} whi w i j w_{ij} wij是相互独立的。【3】以上包含二阶项的拟合函数,可以采用不同的损失函数用于解决回归、二分类等问题,比如可以采用MSE(Mean Square Error)损失函数来求解回归问题,也可以采用Hinge/Cross-Entropy损失来求解分类问题。当然,在进行二元分类时,FM的输出需要经过sigmoid变换,这与Logistic回归是一样的。

回归问题(MSE)

记样本的真实的标签为 y ^ \hat{y} y^,FM模型预测的标签为 y y y,训练集大小为 N N N,则
l o s s ( y ^ , y ) = 1 2 ∑ l = 1 N ( y ^ ( l ) − y ( l ) ) 2 = 1 2 ∑ l = 1 N { y ^ ( l ) − [ w 0 ( l ) + ∑ i = 1 n w i ( l ) x i + 1 2 ∑ k = 1 K ( ( ∑ i = 1 n v i k ( l ) x i ) 2 − ∑ i = 1 n ( v i k ( l ) x i ) 2 ) ] } \displaystyle loss(\hat{y},y)=\frac{1}{2}\sum\limits_{l=1}^{N}(\hat{y}^{(l)} – y^{(l)})^2=\frac{1}{2}\sum\limits_{l=1}^{N}\Big\{\hat{y}^{(l)}-\Big[w^{(l)}_0+\sum\limits_{i=1}^n w^{(l)}_i x_i+\frac{1}{2}\sum\limits_{k=1}^{K}\Big((\sum\limits_{i=1}^{n} v^{(l)}_{ik}x_i)^2-\sum\limits_{i=1}^n (v^{(l)}_{ik}x_i)^2\Big)\Big]\Big\} loss(y^,y)=21l=1N(y^(l)y(l))2=21l=1N{
y^(l)
[w0(l)+i=1nwi(l)xi+21k=1K((i=1nvik(l)xi)2i=1n(vik(l)xi)2)]}

求 导 : ∂ l o s s ( y ^ , y ) ∂ θ = ∑ l = 1 N ( y ^ ( l ) − y ( l ) ) ∂ y ( l ) ∂ θ 求导:\displaystyle\frac{\partial loss(\hat{y},y)}{\partial\theta}=\sum\limits_{l=1}^{N}(\hat{y}^{(l)} – y^{(l)})\frac{\partial y^{(l)}}{\partial\theta} θloss(y^,y)=l=1N(y^(l)y(l))θy(l)

利 用 S G D 训 练 模 型 , 各 参 数 梯 度 : ∂ y ( l ) ∂ θ = { 1 , θ = w 0 x i , θ = w i x i ∑ j = 1 n v j , k x j − v i , k x i 2 , θ = v i , k 利用SGD训练模型,各参数梯度:\displaystyle\frac{\partial y^{(l)}}{\partial\theta}=\begin{cases}1, &amp;\theta=w_0 \cr x_i, &amp; \theta=w_i \cr x_i\sum\limits_{j=1}^n v_{j,k}x_j-v_{i,k}x^2_i,&amp; \theta=v_{i,k}\end{cases} SGDθy(l)=1,xi,xij=1nvj,kxjvi,kxi2,θ=w0θ=wiθ=vi,k

分类问题(logloss)

记样本的真实的标签为 y ^ \hat{y} y^,FM模型预测的标签为 y y y,训练集大小为 N N N;当正负样本的标签分别为 + 1 +1 +1 − 1 -1 1时,交叉熵损失可以表示为
l o s s ( y ^ , y ) = ∑ l = 1 N − l n σ ( y ^ ( l ) y ( l ) ) = ∑ l = 1 N − l n 1 1 + e − y ^ ( l ) y ( l ) = ∑ l = 1 N − l n 1 1 + e − y ^ ( l ) [ w 0 ( l ) + ∑ i = 1 n w i ( l ) x i + 1 2 ∑ k = 1 K ( ( ∑ i = 1 n v i k ( l ) x i ) 2 − ∑ i = 1 n ( v i k ( l ) x i ) 2 ) ] \displaystyle loss(\hat{y},y)=\sum\limits_{l=1}^{N}-ln\sigma(\hat{y}^{(l)}y^{(l)})=\sum\limits_{l=1}^{N}-ln\frac{1}{1+e^{-\hat{y}^{(l)}y^{(l)}}}=\sum\limits_{l=1}^{N}-ln\frac{1}{1+e^{-\hat{y}^{(l)}\Big[w^{(l)}_0+\sum\limits_{i=1}^n w^{(l)}_i x_i+\frac{1}{2}\sum\limits_{k=1}^{K}\Big((\sum\limits_{i=1}^{n} v^{(l)}_{ik}x_i)^2-\sum\limits_{i=1}^n (v^{(l)}_{ik}x_i)^2\Big)\Big]}} loss(y^,y)=l=1Nlnσ(y^(l)y(l))=l=1Nln1+ey^(l)y(l)1=l=1Nln1+ey^(l)[w0(l)+i=1nwi(l)xi+21k=1K((i=1nvik(l)xi)2i=1n(vik(l)xi)2)]1

求 导 : ∂ l o s s ( y ^ , y ) ∂ θ = ∑ l = 1 N − 1 σ ( y ^ ( l ) y ( l ) ) ⋅ ∂ σ ( y ^ ( l ) y ( l ) ) ∂ y ( l ) ⋅ ∂ y ( l ) ∂ θ 求导:\displaystyle\frac{\partial loss(\hat{y},y)}{\partial\theta}=\sum\limits_{l=1}^{N}-\frac{1}{\sigma(\hat{y}^{(l)}y^{(l)})}\cdot\frac{\partial\sigma(\hat{y}^{(l)}y^{(l)})}{\partial y^{(l)}}\cdot\frac{\partial y^{(l)}}{\partial \theta} θloss(y^,y)=l=1Nσ(y^(l)y(l))1y(l)σ(y^(l)y(l))θy(l)

同样, 利 用 S G D 训 练 模 型 , 各 参 数 梯 度 : ∂ y ( l ) ∂ θ = { 1 , θ = w 0 x i , θ = w i x i ∑ j = 1 n v j , k x j − v i , k x i 2 , θ = v i , k 利用SGD训练模型,各参数梯度:\displaystyle\frac{\partial y^{(l)}}{\partial\theta}=\begin{cases}1, &amp;\theta=w_0 \cr x_i, &amp; \theta=w_i \cr x_i\sum\limits_{j=1}^n v_{j,k}x_j-v_{i,k}x^2_i,&amp; \theta=v_{i,k}\end{cases} SGDθy(l)=1,xi,xij=1nvj,kxjvi,kxi2,θ=w0θ=wiθ=vi,k

FFM

通过引入field的概念,FFM把相同性质的特征/归于同一个field。FM可以看作FFM的特例,是把所有特征/都归属到一个field时的FFM模型。
在这里插入图片描述
y = w 0 + ∑ i = 1 n w i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n &lt; v i , f j , v j , f i &gt; x i x j y=w_0+\sum\limits_{i=1}^n w_i x_i+\sum\limits_{i=1}^{n-1}\sum\limits_{j=i+1}^n &lt;v_{i,f_j},v_{j,f_i}&gt;x_i x_j y=w0+i=1nwixi+i=1n1j=i+1n<vi,fj,vj,fi>xixj
注意,这里 i i i是特征,属于field f i f_i fi v i , f j v_{i,f_j} vi,fj表示特征 f i f_i fi对field f j f_j fj的隐向量。

基于field的FFM和FM的区别:(1)FM特征 x i 、 x j 、 x k x_i、x_j、x_k xixjxk交叉时,对应的隐向量 v i 、 v j 、 v k v_i、v_j、v_k vivjvk是可以无区别得互相交叉的,即“ x i x j x_i x_j xixj的系数为 v i v j v_i v_j vivj”,“ x i x k x_i x_k xixk的系数为 v i v k v_i v_k vivk”,很显然: x i x_i xi无论与特征 x j x_j xj、还是特征 x k x_k xk做交叉时,组合系数都是同一个 v i v_i vi,并没有区别开。(2)FFM也是对特征进行交叉(5个feature两两交叉 C 5 2 C^2_5 C52),但是FFM的特征 x i 、 x j 、 x k x_i、x_j、x_k xixjxk交叉时,对应的隐向量 v i 、 v j 、 v k v_i、v_j、v_k vivjvk不能不考虑field互相交叉;即 x i x_i xi与特征 x j x_j xj x i x_i xi与特征 x k x_k xk做交叉时,组合系数不能使用同一个 v i v_i vi,应该根据field信息区别为 v i , f j v_{i,f_j} vi,fj v i , f k v_{i,f_k} vi,fk。只有feature x j x_j xj x k x_k xk属于同一field时,有 v i , f j = v i , f k v_{i,f_j}=v_{i,f_k} vi,fj=vi,fk

结合上图表格:(1)feature1-User分别与feature2-Movie和feature5-Price做交叉时,由于feature2-Movies属于field2、feature5-Price属于field4,所以feature1-User和feature2-Movie组合的系数为 &lt; v 1 , 2 , v 2 , 1 &gt; &lt;v_{1,2}, v_{2,1}&gt; <v1,2,v2,1>,feature1-User和feature5-Price组合的系数为 &lt; v 1 , 4 , v 5 , 1 &gt; &lt;v_{1,4},v_{5,1}&gt; <v1,4,v5,1>,即 v 1 , 2 v_{1,2} v1,2 v 1 , 4 v_{1,4} v1,4是不同的两项。(2)feature1-User分别与feature3-Genre和feature4-Genre做交叉时,由于feature3-Genre和feature4-Genre都属于field3,所以feature1-User和feature3-Genre组合的系数为 &lt; v 1 , 3 , v 3 , 1 &gt; &lt;v_{1,3}, v_{3,1}&gt; <v1,3,v3,1>,feature1-User和feature4-Genre组合的系数为 &lt; v 1 , 3 , v 4 , 1 &gt; &lt;v_{1,3},v_{4,1}&gt; <v1,3,v4,1>,即 v 1 , 3 v_{1,3} v1,3 v 1 , 3 v_{1,3} v1,3是相同的项。

FM背景及相关算法对比

(1)FM(factorization machine)是在LR(logistic regression)基础上,加入了特征的二阶组合项;
(2)SVM和FM的主要区别在于,SVM的二元特征交叉参数是独立的,如 w i j w_{ij} wij,而FM的二元特征交叉参数是两个k维的向量 v i 、 v j v_i、v_j vivj,即 &lt; v i , v j &gt; &lt;v_i,v_j&gt; <vivj> &lt; v j , v m &gt; &lt;v_j,v_m&gt; <vjvm>是相互影响的。

Q:为什么线性SVM在和多项式SVM在稀疏条件下效果会比较差呢?A:线性SVM只有一维特征,不能挖掘深层次的组合特征在实际预测中并没有很好的表现;而多项式SVM正如前面提到的,交叉的多个特征需要在训练集上共现才能被学习到,否则该对应的参数就为0,对测试集上的case而言这样的特征就失去了意义,因此在稀疏条件下,SVM表现并不能让人满意。而FM不一样,通过向量化的交叉,可以学习到不同特征之间的交互,进行提取到更深层次的抽象意义。

参考文献
https://tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134576.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月2日 下午10:00
下一篇 2022年5月2日 下午10:00


相关推荐

  • Openclaw 安装使用保姆级教程(2026最新版)

    Openclaw 安装使用保姆级教程(2026最新版)

    2026年3月13日
    3
  • 正交多项式拟合函数

    正交多项式拟合函数实验要求 给定函数 f x 在 m 个采样点处的值 f 以及每个点的权重 1 lt i lt m 求曲线拟合的正交多项式 满足最小二乘误差 函数接口定义 intOPA double f doublet intm doublex doublew doublec double eps 在接口定义中 f 是给定函数 f x m 为

    2026年3月18日
    2
  • 面试必备:什么是一致性Hash算法?

    面试必备:什么是一致性Hash算法?最近有小伙伴跑过来问什么是 Hash 一致性算法 说面试的时候被问到了 因为不了解 所以就没有回答上 问我有没有相应的学习资料推荐 当时上班 没时间回复 晚上回去了就忘了这件事 今天突然看到这个 加班为大家整理一下什么是 Hash 一致性算法 希望对大家有帮助 文末送书 长按抽奖助手小程序即可参与 祝君好运 经常阅读我文章的小伙伴应该都很熟悉我写文章的套路 上来就是先要问一句为什么 也就是为什么要有 Has

    2026年3月19日
    1
  • 苹果x充电慢是什么原因_苹果手机充不进去电?什么原因?怎么解决?

    突然发现苹果手机充不进电了?难道是手机坏了?还是其它方面的原因呢?今天蜜罐蚁小编给大家介绍一个有关苹果手机使用方面生活小妙招。下面是几种常见苹果手机充不进电原因总结。1、充电线损坏不知道是不是有一些朋友像小编一样,家里的苹果手机原装充电线早就找不到了,从网上买的数据线,结果这种网上买的数据线不耐用,用了几次发现就不好用了,怎么充电都没反应。这种情况就只能更换一根新的数据线了。2、充电器损坏其实这个…

    2022年4月7日
    330
  • zuul网关整合swagger

    zuul网关整合swaggerzuul整合swagger网关maven依赖<dependency><groupId>com.spring4all</groupId><artifactId>swagger-spring-boot-starter</artifactId><version>1.7.0.RELEASE</version></depende

    2022年8月15日
    10
  • C++ 字符串转时间 与 时间转转字符串[通俗易懂]

    C++ 字符串转时间 与 时间转转字符串[通俗易懂]1、常用的时间存储方式1)time_t类型,这本质上是一个长整数,表示从1970-01-0100:00:00到目前计时时间的秒数,如果需要更精确一点的,可以使用timeval精确到毫秒。2)tm结构,这本质上是一个结构体,里面包含了各时间字段structtm{inttm_sec;/*secondsafterthe…

    2022年6月2日
    320

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号