经常逛淘宝的同学应该会发现, 淘宝移动客户端首页下拉有一个猜你喜欢的板块, 经常会推荐一些你曾经在淘宝搜索过的相关物品, 偶尔确实给大家带来小惊喜, 那么淘宝是怎么做到的呢?
最近, 阿里团队在 arXiv.org 上发表了两篇关于实时竞价 (RTB) 系统中的算法的论文, 称不仅能帮助商家在广告竞价中给出合理的策略, 还能最大化商家的利润
以下是第一篇论文部分内容:
基于多智能体强化学习的实时竞价案例
实时广告为广告商提供了一个为每个展位的访客竞价的平台为了优化特定目标, 如最大化广告投放带来的收入, 广告商不仅需要估计广告和用户兴趣之间的相关性, 最重要的是需要对其他广告商在市场竞价方面做出战略回应本文提出了一个实用的分布协同多智能体竞价系统(DCMAB), 并用于平衡广告商之间交易的竞争和合作关系并利用阿里行业的实际数据已经证明了该建模方法的有效性
竞价优化是实时竞价最关心的问题之一, 其目的是帮助广告商为每次拍卖的展示给出合理的出价, 最大化竞价系统的关键绩效指标(KPI), 如点击量或利润传统的竞价算法缺陷在于将竞价优化作为一个静态问题, 从而无法实现合理的实时竞价问题
多智能体强化学习的关键在于如何设计使每个智能体良好合作的机制和学习算法淘宝有数量庞大的广告商, 多智能体强化学习正好可以用来解燃眉之需
淘宝的展示广告系统
在淘宝广告系统中, 大多广告商不仅投放广告, 也在淘宝电子商务平台上销售他们的产品淘宝广告系统可以分为三部分如下图所示: 第一步是进行匹配通过挖掘用户的行为数据获得用户的偏好预测, 当接受到用户请求时, 根据实际情况, 从整个广告语料库中实时匹配部分候选广告 (通常按照顺序) 其次, 实时预测系统 (RTP) 预测每个推荐广告的点击率 (pCTR) 和转化率 (pCVR) 最后, 对候选广告进行实时竞价和排名显示
淘宝广告系统概述
多智能体广告竞价算法原理
将实时竞价看作一个随机游戏, 也叫做 Markov 对策 Markov 对策是将多步对策看作一个随机过程, 并将传统的 Markov 决策过程 ( MDP) 扩展到多个参与者的分布式决策过程(参考文献: 李晓萌, 杨煜普, 许晓鸣. 基于 MarkoV 对策和强化学习的多智能体协作研究[J]. 上海交通大学学报, 2001, 35(2):288-292.)
商家和消费者被分在不同的集群中每个商家群集都有一个 Agent 来调整不同消费者集群的广告竞价 对于行动 a_ij,i 迭代的是商家集群数, j 为消费者集群数 bratio_k 代表商户 k 的基本调整率
由于输出行为 (竞价调整) 处于连续空间中, 论文采用梯度确定性策略来学习竞价算法
(a)淘宝广告系统中的 DCMAB 工作流程图
状态服务器负责维护 Agent 的工作状态, 包括总体信息 g, 消费分布 d 和消费静态特征 x^q
(b)DCMAB 网络结构设计
DCMAB 示意图
算法实现流程图如下:
实验
数据集和评估设置
来源: https://yq.aliyun.com/articles/519133