今天这篇是阿里的一篇文章,几个实习生做的,主要解决的是图片广告的推荐问题。这篇论文主要有以下几点:
- 用DNN模型解决推荐问题,并没有直接采用高维稀疏特征和图片直接作为输入,仍做到了end to end的训练;
- 可以高效处理高维海量数据;
- 在真实海量数据上进行实验,并取得了较好的结果;
下面来看模型,用户对一个广告的行为被称为一次impression,用\(x\) 表示,图片\(u\) 的尺寸为\(120\times 200\) ,同时用户的特征\(v\in\mathbb{R}^d\) ,用对率回归来映射输出值 \[ \hat{y}=\frac{1}{1+e^{-z}}\\ z=f(x) \] loss函数为 \[ \mathcal{L}=-\frac{1}{N}\sum_i(y_i\log\hat{y}_i+(1-y_i)\log(1-\hat{y}_i))+\lambda\|W\|^2 \] 在这个模型中,重点在于如何去学习embedding 函数\(f(\cdot)\) ,模型的结构如下图所示
左侧的卷积方法可以提取图片的特征,与右侧基本特征一起经过非线性的激活函数得到输出,卷积部分用了17层卷机网络
模型看上去也很简单,并不出彩,那么我们来看看细节:
- 稀疏全连接层,训练集中有接近200000个基本特征(毕竟我阿里。。)如果简单的全连接会产生6千万的参数,所以如何降低参数存储和计算就成了重点,模型中采用CSR格式来代表一个batch的基本特征\(V\) ,所以前向传播时\(Y_{fc1}=VW\) ,反向传播时,我们只需要更新非0元素的权重\(\nabla W =V\) ,这就很大程度上减少了计算开销;
- 数据采样,采用SGD训练时,一般会用很小的batch和较多的iterations,对于这样数据集时,却很难收敛,所以作者提出了一个简单高效的训练方式,很多图片广告点击行为都共用了一个图片,所以相比之下,不同的图片就比较少了,因此一些好的特征可以在稀疏的网络结构中迅速传播,所以我们采用大batch对于特征,小的batch用于图片,具体算法如下图所示。
论文后面还对实验部分进行一些分析,感兴趣的同学可以下下来看看,总帖来说文章还不错,一些优化也比较出彩,更重要的是给阿里打了广告。。手动微笑。