AAAI'24「快手」观看时长建模：CREAD

这是一篇来自快手的文章，主要讲了两件事，第一件事是如何对观看时长进行建模，第二件事是如何对连续特征进行分桶。

如何对观看时长建模？

快手（KWai）的短视频观看时长分布和我们的直播场景的观看时长有着类似的趋势，即数据极其不均衡，呈现典型的长尾分布。

观看时长分布

通常预测观看时长有几种方法

能否提出一个更简单的训练任务来预测观看时长？ 这篇文章提出的方案是，使用多个分类任务近似去拟合回归任务。具体的做法和我们处理连续特征的方案类似，把观看时长离散化分成多个桶，对于每个桶进行预测是否落到这个桶里。

预测框架

需要注意的是这里的离散化方法并没有使用 onehot，而是预测大于某一时间阈值的概率，即

y_m = (y>=t_m)

分类任务变成如下形式

{\hat{\phi}}_m(x_i;\Theta_m)=P(y>t_m|x_i),1<=i<=N

恢复公式推导

\begin{align*} \mathbb{E}(y|x_i)&=\int_{t=0}^{t_m}tP(y=t|x_i)dt \\ &= \int_{t=0}^{t_m}P(y>t|x_i)dt \\ &\approx\sum_{m=1}^MP(y>t|x_i)(t_m-t_{m-1}) \end{align*}

这里重点看下第二步

\begin{align*} P(y>t)&=1-F(t) = R(t)\\ P(y=t)&=F^{'}(t)=-R^{'}(t) \end{align*}

可以带入式 1

\begin{align*} &\int_{t=0}^{t_m}tP(y=t|x_i)dt \\ = &-\int_{t=0}^{t_m}tR^{'}(t)dt \\ = &-tR(t)|_{0}^{t_m}+\int_{t=0}^{t_m} t^{'}*R(t)dt \\ =&\int_{t=0}^{t_m}P(y>t|x_i)dt \end{align*}

结合就能得到

\hat{y}=\sum_{m=1}^{M}\Theta_m(t_m-t_{m-1})

损失函数由三部分组成对每个分类的损失

分类损失使用交叉熵 $\mathcal{L}_{ce} = \sum_{m=1}^{M}-y_mlog(\hat{\Theta}_m)-(1-y_m)log(1-\hat{\Theta}_m)$
恢复损失使用 Huber loss $\mathcal{L}_{restore}=\ell(\hat{y},y)$
顺序先验正则化项概率随着 m 增长单调减少 $\mathcal{L}_{ord}=\sum_{m=1}^{M-1}max(\hat{\Theta}_{m+1}-\hat{\Theta}_{m},0)$ 我感觉这篇文章看到这里已经可以了，它给出了一个新的预测观看时间的方式，数学理论也比较强。文章后面则探讨了另外一个问题，也就是如何分桶。