Ad Click Prediction: a View from the Trenches

Introduction & Brief System Overview

CTR预估是这样一个问题：给定一个查询\(q\) 和根据广告商选择的关键词来匹配查询\(q\) 相关的候选广告\(a\) ，也就是计算概率 \[ P(\text{click}|q,a) \] 通常系统中所用到的特征会涉及方面面，包括查询本身、广告的文本、与广告相关的各种信息等等，同时特征也会非常稀疏，往往只会有少数是非零的。

Online learning and sparsity

因为特征的维数往往非常大，所以广义的线性模型更适合这种情况，就像对率回归。为了描述该问题我们做如下表述：\(g_t\in\mathbb{R}^d\) 表明当前第\(t\) 个训练实例，\(g_{t,i}\) 表示其中第\(i\) 项特征的值，同时有\(g_{1:t}=\sum^t_{s=1}g_s\) ，对率回归模型可以表述为预测\(p_t=\sigma(w_t \cdot x_t)\) ，其中\(\sigma(a)=1/(1+\exp(-a))\) ，通过优化对数损失 \[ \ell_t(w_t)=-y_t\log p_t-(1-y_t)\log(1-p_t) \] 其梯度为 \[ \triangledown\ell_t(w)=(\sigma(w\cdot x_t)-y_t)x_t=(p_t-y_t)x_t \] 在线梯度下降(OGD)在这种问题上非常高效，用最少的计算资源，得到较高准确度的结果。但是，在现实中另一个不得不考虑的就是数据的稀疏性，随着模型越来越庞大，存储参数所需要的空间也变得十分庞大，所以让参数稀疏易储存十分重要。OGD在这方面就不是非常有效。单纯加一个\(L_1\) 正则项并不会产生足够好的稀疏参数。更为复杂的方法，如FOBOS 、RDA在引入稀疏性方面就非常有效。但是，RDA的参数稀疏性好，OGD准确性好，各有优点与缺点，FTRL-Proximal 就在稀疏性和准确性上都做得很好，通常OGD的迭代式为 \[ w_{t+1}=w_t-\eta_t g_t \] 其中\(\eta\) 为非负的学习率，而FTRL-Proximal算法做如下的迭代更新 \[ w_{t+1}=\underset{w}{\operatorname{\arg\min}} (g_{1:t}\cdot w+\frac{1}{2}\sum^t_{s=1}\sigma_s||w-w_s||^2_2+\lambda_1||w||_1) \] 其中\(\sigma_s\) 代表学习率，使\(\sigma_{1:t}=\frac{1}{\eta_t}\) ，根据上式，我们知道在迭代的时候，会需要\(w\) 在每次迭代的系数，这会耗费很大的存储空间，所以我们可以只最小化 \[ (g_{1:t}-\sum^t_{s=1}\sigma_sw_s)\cdot w+\frac{1}{\eta_t}||w||^2_2+\lambda_1||w||_1+\text{const} \] 这样，如果我们只存储\(z_{t-1}=g_{1:t-1}-\sum^{t-1}_{s=1}\sigma_sw_s\) ，并且使\(z_t=z_{t-1}+g_t+(\frac{1}{\eta_t}-\frac{1}{\eta_{t-1}})w_t\) ，可以得 \[ w_{t+1,i}=\begin{cases} 0 & \text{if} |z_{t,i}|\leq \lambda_1\\ -\eta_t(z_{t,i}-sgn(z_{t,i})\lambda_1) & \text{otherwise} \end{cases} \] 下图为FTRL-Proximal算法步骤。

SAVING MEMORY AT MASSIVE SCALE

因为数据特征的维度非常大，同时也十分稀疏，对于数据特征的选择就十分重要，通常我们只需要取出现频率比较大的特征作为计算，但读取并筛选特征这一行为本身就是非常昂贵的。

处理这种问题的一个角度是通过\(L_1\) 正则化来实现稀疏性，这样做就不用统计这个特征为零的概率了，这样做可以使包含较少信息的特征在训练中被去除掉，但是这么做的同时，也会带来一定准确度的损失。另一个角度是采用概率特征包含(probabilistic feature inclusion)，新的特征第一次出现的时候以一定概率加入模型中，这种方法既能用于预处理数据，也可以用在在线学习中。这里提供两种实现方法：

Poisson Inclusion 泊松包含，当我们得到一个不在模型中的特征时，我们以概率\(p\) 接收这个特征，一旦这个特征被添加在模型中，在其余观测样本中我们更新它的系数；
Bloom Filter Inclusion，在训练中，记录一定样本中该特征出现的概率，如果超过一定阈值，则加入该特征。

OGD使用32位或者64位浮点数来存储参数，这样可以提高精度，但是，这对于需要参数稀疏的我们并不适合。几乎所有的参数都在\((-2,+2)\) 的取件中，所以我们选择一种修正的\(q2.13\) 的编码方式来代替浮点数。在\(q2.13\) 编码中，我们用2bits存储整数部分，其余的13bits存储小数部分，1bits存储符号，16bits就可以存储一个值，在进行零均值处理之后，在损失很少的精度情况下，可以节约大部分的存储空间。

对于迭代过程，计算梯度也会需要很大的计算资源，所以对梯度的计算也作近似 \[ \sum g_{t,i}^2=\sum_{\text{positive events}}(1-p_t)^2+\sum_{\text{negative events}}p_t^2 \]

\[ \sum g_{t,i}^2\approx P(1-\frac{P}{N+P})^2+N(\frac{P}{N+P})^2=\frac{PN}{N+P} \]

其中\(P\) 和\(N\) 都可以通过统计得到并不需要计算。

典型的CTR的概率会远远低于50%，所以在面临样本不均衡时我们要做一些处理，常见的是对负样本进行次采样(Subsampling)。

Summary

论文的剩下部分也对模型验证和改进等等做了一些介绍，感觉不是特别有意思所以就只扫了一眼。本文对CTR进行了一个大体的描述，一篇还可以的综述类文章。