@基于超网络的实时可控重排模型
链接:淘宝推荐场景的利器:融合复杂目标且支持实时调控的重排模型 如何灵活调节多目标之间的权重。
对应论文:[[KDD/2023]] Controllable Multi-Objective Re-ranking with Policy Hypernetworks
摘录
动机
- 强化学习的 reward function 由多个指标线性加权求和得到,加权参数 w 代表对各个目标之间的倾向。
- 动态指定 preference weights,给定任一一个 w,都能生成最好的序列。
- 准备多套 w,对应不同的业务目标。
方法
- 核心 Hypernet 和 conditional training
- 预测
- 根据用户 和 candidate item 信息实时指定 w,Hypernetwork 根据 w 生成参数给重排模型(DNN 最后几层的 w 和 b)。
- 图中重排模型黄色参数对 w 敏感,蓝色参数对 w 不敏感。
- 训练
- 每一个 sample 或 batch 从事先指定的 distibution 中随机采样一个 w。
- 重排模型生成序列给 evaluator 评估,reward 转化成一个 gradient,同时更新 hypernet 和重排模型相关的参数。
结果
- a
- x 轴点击 utility 的权重,y 轴是线上真实回收出来的样本的点击平均值。
- 蓝色折线真实值,橙色一次拟合。
- utility 权重增大,点击率明显上升。重排模型能够依据给定的 w 生成不一样的序列。
- b 冷启内容占比
- c 店铺多样性
- d 组间排序的 utility,表示来自不同 group 的内容,大致要按照 group 的优先级排序。
- 右边是 ab 结果,实验方案线上超参调节,指标有提升。
@基于超网络的实时可控重排模型