这次来回顾一下另一个经典模型,Factorization Machine。
Factorization Machine
模型形式如下 \[ \hat{y}(x)=w_0+\sum^n_{i=1}w_ix_i+\sum^n_{i=1}\sum^n_{j=i+1}\langle v_i,v_j\rangle x_ix_j \] 包括对一阶和二阶特征的考虑,这样做是因为我们可以证明对于足够大的\(k\) 存在矩阵\(V\in\mathbb{R}^{n\times k}\) 有 \[ W=VV^T \] 即二阶的权重可以用矩阵分解的形式得到,并且潜在因子的数量决定了二阶权重的质量。这样做有很多好处,首先,在训练集中未出现的权重项就可以通过出现过的权重进行训练,即\(w_{ij}\) 未出现过,但\(v_i\) 和\(v_j\) 却是可以用通过别的项训练出来。同时,可以将计算开销降低至\(O(kn)\) ,证明如下 \[ \begin{aligned} &\sum^n_{i=1}\sum^n_{j=i+1}\langle v_i,v_j\rangle x_ix_j\\ =&\frac{1}{2}\sum^n_{i=1}\sum^n_{j=1}\langle v_i,v_j\rangle x_ix_j-\frac{1}{2}\sum^n_{i=1}\langle v_i,v_i\rangle x_ix_i\\ =&\frac{1}{2}(\sum^n_{i=1}\sum^n_{j=1}\sum^k_{f=1}v_{if}v_{jf}x_ix_j-\sum^n_{i=1}\sum^k_{f=1}v_{if}v_{if}x_ix_i)\\ =&\frac{1}{2}\sum^k_{f=1}(\sum^n_{i=1}\sum^n_{j=1}v_{if}v_{jf}x_ix_j-\sum^n_{i=1}v_{if}v_{if}x_ix_i)\\ =&\frac{1}{2}\sum^k_{f=1}((\sum^n_{i=1}v_{if}x_i)(\sum^n_{j=1}v_{jf}x_j)-\sum^n_{i=1}v_{if}^2x_i^2)\\ =&\frac{1}{2}\sum^k_{f=1}((\sum^n_{i=1}v_{if}x_i)^2-\sum^n_{i=1}(v_{if}x_i)^2)\\ \end{aligned} \] 可以看见里面变成和的平方减去平方的和的形式,大大简化了计算开销,求导更新权重也变得简单 \[ \frac{\partial}{\partial\theta}\hat{y}(x)= \begin{cases} 1&\theta \text{ is }w_0\\ x_i& \theta \text{ is } w_i\\ x_i\sum^n_{j=1}v_{jf}-v_{if}x_i^2&\theta \text{ is } v_{if} \end{cases} \] 同时FM也可以跟SVM一样用kernel的方法进行优化,文章后面作者还跟其他几个常用模型做了比较。
Field-aware Factorization Machines
FFM在FM的基础上提出了域(field)的概念,将不同类别的数据分入不同的field中,然后对每个field的特征作交叉,其实这么做就是为了独立latent factor的影响,论文中给出这样一个例子
click number | not click number | Publisher | Advertiser |
---|---|---|---|
80 | 20 | ESPN | Nike |
10 | 90 | ESPN | Gucci |
0 | 1 | ESPN | Adidas |
15 | 85 | Vogue | Nike |
90 | 10 | Vogue | Gucci |
10 | 90 | Vogue | Adidas |
85 | 15 | NBC | Nike |
0 | 0 | NBC | Gucci |
90 | 10 | NBC | Adidas |
预测这样一条数据被点击的概率时
click | Publisher(P) | Advertiser(A) | Gender(G) |
---|---|---|---|
p | ESPN | Nike | Male |
对于FM模型,交叉项为 \[ w_{\text{ESPN}}\cdot w_{\text{Nike}}+w_{\text{ESPN}}\cdot w_{\text{Male}}+w_{\text{Nike}}\cdot w_{\text{Male}} \] 我们可以看出,每个特征的latent factor vector在相互匹配交叉配对的时候都是通用的,即我们训练出Publisher项的\(w_{\text{ESPN}}\) 既可以用在和Advertiser项的交叉中,又可以用在和Gender项的交叉中。而FFM做的就是,Publisher、Advertiser、Gender这三个field彼此两两交叉的时候,不共享同一个latent factor vector,所以就变成这样 \[ w_{\text{ESPN}}^{\text{PA}}\cdot w_{\text{Nike}}^{\text{PA}}+w_{\text{ESPN}}^{\text{PG}}\cdot w_{\text{Male}}^{\text{PG}}+w_{\text{Nike}}^{\text{AG}}\cdot w_{\text{Male}}^{\text{AG}} \] 权重的上标表示权重分解所属于的field,\(w_{\text{ESPN}}^{\text{PA}}\) 仅表示Publisher filed和Advertiser filed的交叉,训练出来的ESPN的latent factor vector。
FM与FFM相比,FM是做所有feature的交叉,所以二次项权重矩阵\(W\in\mathbb{R}^{n\times n}\) 的,其中\(n\) 为特征数,可以视作所有的feature属于一个field,而FFM相当于对\(W\) 的拆分,然后分别训练(自己目前的理解,不一定对,如果不对请各位看官指出) \[ W= \begin{bmatrix} w^{PP}& w^{PA} & w^{PG}\\ w^{AP}& w^{AA}& w^{AG}\\ w^{GP}& w^{GA}& w^{GG} \end{bmatrix} \] 其中每部分都是field交叉特征 \[ w^{PA}= \begin{bmatrix} w_{\text{ESPN,Nike}}&w_{\text{ESPN,Gucci}}&w_{\text{ESPN,Adidas}}\\ w_{\text{Vogue,ESPN}}&w_{\text{Vogue,Gucci}}&w_{\text{Vogue,Adidas}}\\ w_{\text{NBC,Nike}}&w_{\text{NBC,Gucci}}&w_{\text{NBC,Adidas}}\\ \end{bmatrix} \] 其中将\(w^{PA}\) 分解为矩阵相乘形式得到 \[ w_{\text{ESPN,Nike}}=w_{\text{ESPN}}^{\text{PA}}\cdot w_{\text{Nike}}^{\text{PA}} \] 此处等号右边的\(w\) 都是向量,等号左边的\(w\) 为标量,上面写得正式一点应该是 \[ v_{\text{ESPN}}^{\text{PA}}\cdot v_{\text{Nike}}^{\text{PA}}+v_{\text{ESPN}}^{\text{PG}}\cdot v_{\text{Male}}^{\text{PG}}+v_{\text{Nike}}^{\text{AG}}\cdot v_{\text{Male}}^{\text{AG}} =w_{\text{ESPN,Nike}}^{\text{PA}}+w_{\text{ESPN,Male}}^{\text{PG}}+w_{\text{Nike,Male}}^{\text{GA}} \] 讲清楚是什么之后我们再来看怎么算,论文里给出来的是用梯度下降进行迭代计算,计算其中非0值的梯度进行更新。此处我觉得这里依然可以按照FM的方法进行迭代更新,然后每次更新矩阵中的一部分而已。
可是FFM的强大并不在于将latent factor处理为相互的做法,而是提供了一个炒鸡快的多线程实现库libffm。嗯,算得快就是可以这么为所欲为,你快你强大。
Pairwise Interaction Tensor Factorization for Personalized Tag Recommendation
这里补充一下这篇文章,这篇文章是早于FFM提出来的,FFM就是根据这个思想提的,看完FFM再看这篇文章就很清楚了,这篇文章是分了3个field,user、item、tag三个维度做ffm。
Higher-Order Factorization Machines
这篇文章重点在于介绍如何把之前的二阶交叉特征再往高阶去提升,并引入了kernel的方法,引入ANOVA kernel来提升阶数(好像在SVM里见过?),有了高阶特征,如何训练就成了问题,作者在文中给出了多种训练方式,包括梯度下降、坐标上升等等。
Factorization Machines with libFM
这篇文章是对libFM的一个介绍,主要libFM中对于FM的三种计算方法:SGD、ALS和MCMC。其中SGD是原文中最普遍的一种迭代算法,ALS则相对麻烦一点,不断迭代的方式得到收敛解,而MCMC则是求解FM的图模型
由于我还没怎么入门图模型,就不在这多解释了,不过FM的图模型相对简单很多,看着公式就可以理解。MCMC也在之前博客中讲过了,大家可以去看。
Gradient Boosting Factorization Machines
这篇文章是GBM+FM的组合,说实话前两天我也在想,GBM这么好用,为什么没人把GBM和FM结合或者是MF结合,肯定会有一定提升的,然后今天就读到这篇文章了。这篇文章主要的idea就是对于FFM,并不是所有的field都是有用的feature,所以如选择好的交互特征就需要我们研究,这篇文章就是从这个问题出发的。主要的迭代式为 \[ \hat{y}_s(x)=\hat{y}_{s-1}(x)+\sum_{i\in\mathcal{C}_p}\sum_{j\in\mathcal{C}_q}\mathbb{I}[i,j\in x]\langle V_p^i,V_q^j\rangle \] 其中的\(\mathcal{C}_p\) 和\(\mathcal{C}_q\) 为选取的交叉特征,其中如何选取好的特征则是我们模型的重点,文中采取的算法是选择尽可能使目标函数降低最快的特征,这点跟xgboost就非常相似,有兴趣的各位可以查阅一下(其实基本上完全相同的做法。。。),这里给出算法流程
Neural Factorization Machines for Sparse Predictive Analytics
这篇文章也是融合FM与DL方法的一篇文章,根据FM提出一种神似的叫Bi-Interaction Pooling的结构,用以刻画二阶特征,带入网络计算,网络结构如图所示
而这个Bi-Interaction Pooling层的计算方式为 \[ f_{\text{BI}}(\mathcal{V}_x)=\sum^n_{i=1}\sum^n_{j=i+1}x_iv_i\odot x_jv_j \] 与FM相似,可以改写为 \[ f_{\text{BI}}(\mathcal{V}_x)=\frac{1}{2}[(\sum^n_{i=1}x_iv_i)^2-\sum^n_{i=1}(x_iv_i)^2] \] 这个想法也还是挺好的,把FM当成pooling层来提取特征,感觉再深入一点应该效果会更好。