Attentional Factorization Machines- Learning the Weight of Feature Interactions via Attention Networks

昨天看的有点多了，今天少看点，然后看点别的内容缓解一下，刚好今天看到了这篇是attention模型+FM，所以今天打算再去看看attention。

回归正题，这篇文章主要思路是在FM的二阶特征上加attention layer

\[ f_{\text{Att}}(f_{\text{PI}}(\mathcal{E}))=\sum_{(i,j)\in\mathcal{R}_x}a_{ij}(v_i\odot v_j)x_ix_j \] 其中attention的计算方式如下 \[ a_{ij}'=h^TReLU(W(v_i\odot v_j)x_ix_j+b)\\ a_{ij}=\frac{\exp(a'_{ij})}{\sum_{(i',j')\in\mathcal{R}_x}\exp(a'_{i'j'})} \] 最终的结果为 \[ \hat{y}_{\text{AFM}}(x)=w_0+\sum^n_{i=1}w_ix_i+p^T\sum^n_{i=1}\sum^n_{j=i+1}a_{ij}(v_i\odot v_j)x_ix_j \] 最后为了避免过拟合可以加上正则项。

之后有时间再好好总结一下FM。