“一阶”和“二阶”指标

“一阶”和“二阶”指标的定义

本节内容仅针对分类与概率预测类问题。

算法实践中，常用的机器学习模型评估指标可以hold住大部分场景，包括常见的准确率，查准率、查全率、AUC等等，但是在最近的实践的场景中，我发现上述指标并不能完全适用于我们的场景。

首先定义一阶指标（此处的“一阶”和“二阶”完全是我的定义，为了方便下面不会加引号。），一阶指标就是常见的准确率、查准率、AUC等等，能够直观表达出模型在个体样本上的准确度（模型性能），但是这些指标的核心作用是做样本间的“优劣”比较，只能分辨出两个样本的谁好谁坏，甚至IR中List-Wise的指标，也只是在做样本间的比较，这些都无法评估对单个样本预测值的表现。

举个两个例子：在类CTR的场景下，我们往往会将最终的指标拆成多个概率相乘的形式，\(P_1*P_2*P_3*\cdots*P_n\)，然后通过分别建模来得到一个最终的结果，这种时候两个AUC=0.9的模型最终产出的结果可能AUC=0.8，由于模型在不同样本上有不同的偏差，所以误差会累积放大；两个样本，模型A预测点击率0.2和0.7，模型B预测点击率0.4和0.5，对于AUC这样的一阶指标而言，两个模型是相同的，但是在使用比较复杂的场景中，比如说我们我们要计算期望收益，这时候点击概率具体数值的大小就会影响我们受益的计算。有人会说，我们可以划定阈值来计算准确率，但经过阈值之后的01预测值，对于最终收益的计算可能偏差更大。

在这些时候，我们会去看一些群体指标，也就是二阶指标。二阶指标可以定义为在单体维度上不可观测，只有计算一个群体时候才能得到真实值的指标。拿预估司机出车概率的场景来说，我们会算这些司机的出车概率的平均是否真的等于这些司机的总体出车率。当然，这样的二阶指标应该尽量计算到比较细的人群上，比如说出车概率从0到1分10桶，我们在第一桶，出车概率预测为0-0.1的这群人，对这些司机的出车概率预估的平均是否真的等于他们的总体出车率。简单来说，二阶指标就是需要群体来衡量的指标，因为这些时候一阶指标往往不可观测，我们预测一个人的点击概率是0.8，我们无法真正观测到“概率”，我们只能看到这个人要么点了label为1，要么没点label为0，所以只有两种做法，要么这个人在完全一模一样的场景中，怀着一样的心态，重复实验N次，我们计算概率，要么我们在这个样本的特征空间内，找到与它相近的N个样本，认为这N个样本的实际点击概率与这个样本相近，他们的均值可以代表这个样本的概率（也就是相近群体的整体概率）。

上述方法前者不可行，只能用后者，所以当输出值是概率的时候，我们需要更多关注一些群体性的二阶指标。

二阶指标与因果建模

在一些非常规机器学习场景下，我们只能关注二阶指标，比如说因果建模，因果建模关注的是，当我给一个实验对象一个处理效应和不给他时候的差异，因为我们只能观测到实验对象有处理效应的情况或者没有处理效应的情况，所以对于单体样本，我们永远不可能得到一个处理效应的实际值，所以在这种时候，我们就需要通过一些手段，才能去直接优化二阶指标。具体因果建模的内容可以关注我博客里的其他文章，如：写了三周没写完的causal tree，大家可以隔几周再点，此处就不多赘述了。

为什么要多关注二阶指标

最大的问题是关于模型预测值的使用方法，如果我们对样本的预测值只是做优劣排序，我觉得一阶指标完全够用，但如果是后面有一些别的操作，就需要关注二阶指标了，比如说我们希望预测一个活动的期望成本的时候，对每个人是否获奖的概率有一个估计，由于每个人的成本不一样，所以做最后的期望成本用每个人的概率乘以每个人的成本，这个时候预测概率值具体多少就比较重要了。

2.5阶指标？

当我们的机器学习模型后面接的是一个带约束的最优化问题时候，我们可能需要再去定义一种2.5阶指标，因为这时候群体概率准确已经不一定完全适用了，因为后面优化问题的存在，所以我们会需要在某些点（某个特征空间邻域内）上准确，同样是预估活动成本的问题，当我们每个人面临多个活动可以选择的时候，我们选择最优的活动发放方式，目标是整体花费最少，约束是活动触达人数限制（此处可以理解为成本低的活动，点开到活动页面参与的人数会比较少，需要做影响人数与花费的权衡），这种时候，某些人群天然就对某类活动有偏好，此时我们可能选在一个平均二阶指标好的模型并不如选一个在这些群体上二阶指标好的模型。

具体怎么考虑这个问题，我还在思考，如果有志同道合的胖友，欢迎讨论。

附吹捧dl e2e

上述提到多个模型的输出相乘的形式导致最后结果变差的问题，现在业界也有很多方式解决这个问题，用的比较多的应该是multi-task learning，最近也在实践这个，感觉真的能够有效缓解这个问题，所以如果你的场景支持一个E2E的方案，请毫不犹豫的尝试一下。