竟标网站源码,做网站赚钱还是做app赚钱,wordpress取消自适应,吉林省建设网站▐ 导读 近年来#xff0c;强化学习自动出价算法已成为智能投放领域的标志性技术#xff0c;然而其所存在的在离线不一致、线上数据覆盖空间受限等关键问题尚未被完全解决。在本文中#xff0c;我们提出一种Model-based RL#xff08;MBRL#xff09;自动出价算法训练新范… ▐ 导读 近年来强化学习自动出价算法已成为智能投放领域的标志性技术然而其所存在的在离线不一致、线上数据覆盖空间受限等关键问题尚未被完全解决。在本文中我们提出一种Model-based RLMBRL自动出价算法训练新范式进一步缓解上述两点挑战。经过一年的迭代MBRL自动出价算法已在阿里妈妈万相台无界版全站推场景、货品场景、关键词场景和精准人群推广场景中完成扩流显著增强了投放效果。未来在基于监督学习的预训练方法逐渐收敛的趋势下MBRL以其高效的样本利用率与基于探索超越数据集的能力将进一步赋能生成式自动出价算法焕发新的活力。 1. 概述 近年来出价产品智能化已经成为在线广告行业的主要发展趋势之一。广告主只需要表达预算、优化目标及拿量成本自动出价Auto-bidding算法就会代表广告主在海量流量上进行自动化竞价以满足广告主的营销诉求。然而每个广告主的竞价流量数量众多且复杂多变自动出价算法需要找到一个能够在整个投放周期内满足设定成本并效果最优的出价序列是一个复杂的序列决策问题。随着机器学习的发展从19年开始以擅长序列决策问题著称的强化学习Reinforcement LearningRL算法逐渐用于自动出价算法中。强化学习以试错学习TrialError为基本思想在没有明确的最优出价序列的监督信号条件下通过学习不同出价序列的反馈数据逐步优化出价策略。至今强化学习出价算法已经在业界大规模落地显著提高了投放效果。 1.1 强化学习自动出价算法的范式变迁 纵观强化学习自动出价算法的发展历程整体上经过了由基于离线仿真器训练Simulation-based RL Bidding简称SBRL代表算法USCB [1]等到抛弃离线仿真器、直接利用线上真实数据训练Offline RL Bidding简称ORL代表算法CQL [2]等的范式转变*如图1中①和②所示。众所周知强化学习训练中的试错学习过程需要与问题对应环境交互以产生反馈样本然而出于安全和效率考虑线上竞价环境无法在强化学习训练中使用因此一个自然的想法便是人为构建一个可以模拟线上竞价环境的离线仿真器用于训练这就是SBRL范式。在19年到21年间的强化学习自动出价算法多采用SBRL范式进行训练。然而当时的离线仿真器多采用简单规则构建与线上真实环境的gap很大在离线不一致问题较为严重见3.3.2实验1。为缓解在离线不一致问题从22年开始一种主流的解决思路是能否抛弃离线仿真器、直接利用线上真实数据进行训练这便是ORL范式的基本思路。然而线上真实数据集往往由单一的线上主模型产生其覆盖的状态-出价空间有限在没有离线仿真器可以进一步交互的条件下ORL无法利用到数据集覆盖空间之外的状态-出价数据进行训练导致训练得到的自动出价策略通常被限制在线上真实数据集附近优化幅度较小见3.3.2实验2。 图1. 强化学习自动出价算法的范式变迁。整体上其经过了由基于离线仿真器训练SBRL到抛弃离线仿真器、直接利用线上真实数据训练ORL的范式转变。本文提出了一种基于环境模型建模的新强化学习自动出价范式MBRL。 *图1展示的均为在没有进一步与线上竞价环境交互下的强化学习自动出价范式变迁。实际上可以设计线上探索方法以扩充数据集获得新反馈这种线上探索的方法可以与上述每一种offline范式结合升级为online的范式。online范式升级与图1展示的范式变迁正交本文不做重点讨论online范式的详细方法可见[3]。 1.2 MBRL自动出价算法演进之路Overview 23年10月我们开始尝试基于环境模型的强化学习自动出价算法训练新范式Model-based RL Bidding简称MBRL。如图1中③所示MBRL的基本思路为基于线上真实数据利用深度学习训练一个泛化性较好的神经网络环境模型以模拟线上竞价环境其所产生的数据在经过置信度处理后作为离线虚拟数据丰富训练集与线上真实数据共同训练出价策略构成 “虚实融合” 的训练新范式。MBRL避免了SBRL中对于离线仿真器的不精确如果做精准会很复杂的人工构建通过深度学习实现对线上真实数据所包含竞价环境信息的提取大幅缓解了在离线不一致问题对比ORL范式MBRL进行了丰富且可靠的训练数据扩充打破了ORL中出价策略在只在数据集附近优化的束缚为优化幅度的提升开拓了空间。 24年我们将MBRL成功迁移到具有ROI约束的TargetROAS计划上其中我们新增了Lagrange对偶梯度法计算ROI约束下的出价策略梯度并利用神经网络环境模型提供梯度计算所需数据提出了具有收敛性理论保证的Lagrange-MBRL算法。同年我们针对MBRL训练中存在的问题进行技术打磨大幅提升了其训练稳定性。 至今MBRL已经在阿里妈妈万相台无界版的货品场景、关键词场景、精准人群推广场景和全站推场景中完成扩流在大盘覆盖计划中带来 消耗 3.5% / GMV 4.5% 的收益显著增强了广告主的投放成效。 2. Preliminary自动出价问题建模 为了便于后续算法展开在本节我们给出自动出价问题的形式化建模并描述了出价的调控过程。考虑一个广告主的单个投放计划在一个投放周期设定为一天内的投放过程自动出价问题可以统一形式化为 其中 代表第 个流量是否竞得 和 分别代表第 个流量的价值和竞得的扣费 为第 个成本约束 为广告主设定的预算。在本文中我们主要考虑在阿里妈妈万相台无界版中消耗占比最多的两类自动出价问题 BCBBudget Constrained Bidding问题只有预算约束没有成本约束TargetROASTarget Return on Ad Spend 问题成本约束为ROI约束。 对于这两种问题而言在第 个流量上的最优出价形式为 [1]其中 是未知参数。基于此我们设定投放周期内的调控过程为在每个流量上采用上述出价形式并且每隔固定的时间间隔对 进行一次调节整个调控周期中共有 次 的调节。上述调控过程可以利用马尔可夫决策过程Markov Decision ProcessMDP 进行建模其中 为状态空间 为动作空间出价动作 即为 的调整幅度 为状态转移函数是由竞价环境决定的 为奖励函数针对BCB问题和TargetROAS问题需要进行不同设计。我们构建一个神经网络模型 用来学习每个时刻最优的 调整幅度令 为神经网络的参数。我们称 为出价策略也是最终要学习的目标。 下面我们将分别介绍针对阿里妈妈万相台无界版中消耗占比最多的BCB和TargetROAS两类计划的MBRL算法及其实验结果。 3. 针对BCB问题的MBRL算法 3.1 Overview 针对BCB问题的MBRL算法整体流程如图2所示 首先我们基于线上真实数据拟合一个神经网络环境模型并且利用出价策略与环境模型进行大量交互以产生丰富的离线虚拟数据。得利于神经网络的泛化性神经网络环境模型可以大幅降低离线虚拟数据的在离线不一致问题其次离线虚拟数据会经过置信度处理以进一步降低神经网络环境模型的不准确性对出价策略训练产生的负面影响。其中我们以环境模型的拟合方差来衡量离线虚拟数据的置信度并对离线虚拟数据中的奖励函数进行正比于置信度的惩罚从而避免环境模型的错误“乐观”即对于奖励函数的高估对出价策略训练带来误导最后离线虚拟数据与线上真实数据混合一起作为训练集对出价策略 进行“虚实融合”训练。训练中我们发现利用传统的RL方法训练会使得出价策略的各种离线指标不收敛的情况这为后续的模型挑选带来困难。经过分析认为这种不收敛是由于贝尔曼方程的自举误差带来的尤其在利用缺乏状态转移偏差修正的离线虚拟数据训练的情况下这种自举误差更为严重。为此我们设计了COMBOMICRO的训练方法对离线虚拟数据的状态转移偏差进行限制以缓解自举误差提升了出价策略训练的稳定性。 图2. 针对BCB问题的MBRL算法整体流程。 3.2 算法模块细节 下面分别介绍神经网络环境模型、置信度处理机制和COMBOMICRO训练方法这三个主要模块。 3.2.1 神经网络环境模型 神经网络环境模型以状态 或其历史序列和出价动作 或其历史序列作为输入输出奖励函数和下一时刻状态的高斯分布均值和方差并通过重参数化的方式确定具体的奖励函数和下一时刻状态的预估值 和 。神经网络环境模型可以采用任意的网络结构例如MLP、ResNet、Transformer等拟合能力越强的网络结构越有助于提高环境模型的精度也越有助于增强MBRL训练的出价策略 的性能。神经网络环境模型的训练是一个典型的监督学习问题我们采用最大似然函数作为损失函数并利用线上真实数据作为训练集梯度更新其参数直到收敛之后神经网络环境模型的参数便被freeze在后续流程中不再变动。 3.2.2 置信度处理机制 为进一步降低神经网络环境模型预估的不准确性对策略训练带来的负面影响我们对其产生的离线虚拟数据进行进一步的置信度处理。具体而言在离线虚拟数据加入策略的训练集之前我们对其中预估的奖励值施加一定的惩罚由 变为 即 惩罚项 其中 代表惩罚项。这样做的目的是使得策略对线上真实数据集外的数据产生一定程度上的“悲观”从而避免由于神经网络环境模型对状态空间中某些区域的错误乐观即对奖励值的高估而导致的策略性能下降可以证明利用置信度处理后的奖励 训练可以提升出价策略在真实竞价环境中性能的下界[4]。那么如何设计惩罚项 的具体形式呢注意到由于神经网络往往在数据稠密的地方拟合效果好方差小在数据稀疏的地方拟合效果差方差大如图3所示因此神经网络环境模型的拟合方差是一种天然的 选择。因此我们训练 个神经网络环境模型让他们同时输出对于的奖励函数预测并计算这些预测值的方差记为 则惩罚项 的具体形式为 其中 为常数。 3.2.3 COMBOMICRO训练算法 Q值不稳定问题理论上任意RL算法均可以用于此处出价策略的训练然而我们在实验过程中发现使用传统RL算法例如SAC[3]训练出价策略的各项离线指标抖动较大其中出价策略的Q值仍可能会不合理的持续升高甚至无法收敛如图4所示这对策略的挑选带来影响。经过分析我们认为这种不收敛性来自于Q函数TD-loss中贝尔曼算子带来的误差累计。具体而言TD-loss为 ´íÎó 其中 是基于当前Q函数估计的贝尔曼算子公式为 可以看到TD-loss实际是一个以 为近似groundtruth的MSE-loss而 中的第二项 就是Q函数本身即Q函数的更新是自举的Q函数的不准确性本身会导致其更新的不准确性尤其在训练初期Q函数不准确度很高传统RL算法缺失了对Q函数本身的限制。此外在置信度处理时我们仅对神经网络环境模型产生的奖励函数进行处理而没有对其状态转移估计 的不准确性进行处理神经网络环境模型可能产生不合理的远离线上真实数据集的 导致 值较高从而带来Q函数的高估和不收敛问题。 COMBOMICRO训练算法针对Q值仍可能存在的高估和不收敛问题我们参考了COMBO算法 [6]和MICRO算法[7]的思路对两者进行融合在原来Q函数损失函数的基础上做如下两项改动 COMBO对线上真实数据集之外的数据(s,a)进行均匀采样 并打压其Q值。由于Q值是后续累计奖励的期望因此COMBO可以看成是对置信度处理机制的增强。MICRO考虑 的不确定性对 的影响避免神经网络环境模型的不合理的 预估带来Q函数高估。具体而言我们对神经网络环境模型预估的 进行采样取最小的Q值作为 中的第二项即 。 结合上述两项改动得到最终的Q函数更新函数如下所示红色为新增部分 其中 为正则化系数用于平衡真实数据集中的状态动作对和环境模型生成的状态动作对之间的保守性 是均匀分布 是真实数据集 是混合数据集由线上真实数据和神经网络环境模型生成的离线虚拟数据组成 为 分布若 则 否则 是神经网络环境模型的预估值 从其输出的高斯分布中采样。 3.3 实验结果 3.3.1 线上实验 MBRL在阿里妈妈万相台无界版货品场景、关键词场景、精准人群推广场景的BCB计划上均取得了显著效果带来消耗 1.3% / GMV 5.0% / ROI 3.7% 的收益。 3.3.2 消融实验 为了进一步验证MBRL有效性我们对MBRL进行了如下消融实验 神经网络环境模型准度评估验证相比SBRL中的简单离线仿真器是否可以缓解离在线不一致问题 实验设置神经网络环境模型与SBRL中常用的简单GSP环境模型进行对比实验结果状态转移MAE -68.3% 奖励函数MAE -90.0% 结论神经网络环境模型可以大幅缓解在离线不一致问题。出价策略轨迹与线上真实数据集距离评估我们已知MBRL相比ORL性能更好我们想进一步查看性能更好的出价策略的轨迹与线上真实数据间的距离是否更大以证明MBRL可以突破线上真实数据集的束缚寻优。 实验设置观测MBRL出价策略和ORL出价策略到线上真实数据集之间的Wasserstein距离实验结果效果较好的MBRL出价策略的轨迹会比效果较差的ORL出价策略的轨迹离线上真实数据集更远 15.55% 。结论验证了相比ORL是否可以探索出更优异的轨迹训练稳定性评估验证提出的COMBOMICRO算法是否可以提升出价策略训练的稳定性 实验设置对比了无COMBOMICRO图中MBRL-V1蓝线和包含COMBOMICRO方法的MBRL图中MBRL-V2黄线在9个稳定性指标上的稳定性差异实验结果如图5所示增加COMBOMICRO算法后MBRL的训练稳定性有了明显的提升。 图5. 无COMBOMICROMBRL-V1蓝线和包含COMBOMICRO方法的MBRLMBRL-V2黄线在9个稳定性指标上的稳定性差异。可以看到增加COMBOMICRO算法后MBRL的训练稳定性有了明显的提升。 4. 针对TargetROAS问题的Lagrange-MBRL算法 与BCB问题不同TargetROAS问题中存在额外的ROI约束如何训练满足ROI约束的出价策略是算法的设计关键。一种常用的处理ROI约束的方式是在奖励函数中额外加入ROI惩罚项进行reward shaping。然而ROI只有在投放周期结束时才可以计算导致ROI惩罚项只存在于最后一步的奖励函数中造成了奖励稀疏的问题。此外reward shaping的方式缺乏收敛的理论保证这些都给TargetROAS出价策略训练带来困难。为此我们提出了Lagrange-MBRL方法缓解了上述问题。 4.1 Lagrange-MBRL Overview Lagrange-MBRL算法的整体框架如图6所示主要包含拉格朗日对偶梯度法和神经网络环境模型两个模块其中拉格朗日对偶梯度法给出了出价策略更新的方式而神经网络环境模型则提供了用于支持出价策略进行拉格朗日对偶梯度法更新的数据。两个模块的基本思路如下 拉格朗日对偶梯度法拉格朗日对偶梯度法从理论上计算出出价策略的梯度并通过原域和对偶域交替的方式进行更新实现了在保障ROI达标的基础上优化出价策略。对比reward shaping的方式拉格朗日对偶梯度法可以通过根据ROI达标情况自动调节对偶系数的方式保障ROI约束避免了稀疏ROI惩罚项的引入。此外拉格朗日对偶对偶梯度法具备收敛性的理论保障。神经网络环境模型我们沿用BCB问题的MBRL算法中的神经网络环境模型方法基于线上真实数据拟合神经网络环境模型以生成训练样本产生用于拉格朗日拉对偶梯度法更新的数据。 图6. Lagrange-MBRL算法的整体框架。 由于Lagrange-MBRL中神经网络环境模型的构建和训练与上一节相同因此下文中主要对拉格朗日对偶梯度法进行介绍。 4.2 拉格朗日对偶梯度法 为方便后文的算法展开我们对TargetROAS问题进行重新表述。在此我们考虑同时拥有上界和下界ROI约束的TargetROAS问题 其中 为出价策略参数 表示一个投放周期内的拿量总和 表示一个投放周期内的总消耗 表示广告主设置的目标ROI值 分别表示ROI的上界和下界限制系数 等价问题利用拉格朗日函数上述Target ROAS问题可以等价地写为: 其中 为拉格朗日函数其表达式如下所示 其中 为拉格朗日系数 对应超额约束即ROI上界约束 对应欠额约束即ROI下界约束。此外我们把超过ROI上界的幅度称为超额幅度把低于ROI下界的幅度成为欠额幅度。 对偶域-原域更新框架对于该等价问题我们借鉴经典的Primal-Dual OptimizationPDO[8]更新框架首先随机初始化 然后交替进行对偶域和原域的更新。在对偶域中我们固定 利用拉格朗日函数相对 的梯度更新 如下面公式(1)所示其中与0取max是为了保障 非负在原域中我们固定 利用拉格朗日函数相对 的梯度更新 如下面公式(2)所示。可以证明该框架可收敛到局部最优[8]中的定理7。对偶域-原域更新的整体框架如下所示。 在对偶域更新中我们推导拉格朗日函数 相对 的梯度 得到 更新的解析表达式如下所示。可以看到更新表达式有明确的物理含义其中 的更新表达式即为超额幅度 的更新表达式即为欠额幅度。直观上 如同ROI约束的监控器可以自动感知超额和欠额幅度并控制着拉格朗日函数中“超额和欠额惩罚项”的幅度相比人工设定的固定惩罚项系数具有自动感知的优势。 在原域更新中我们推导拉格朗日函数 相对于出价策略参数 的梯度其解析表达式如下所示。可以看到出价策略梯度由拿量梯度和消耗梯度两部分构成。 可以利用经典策略梯度定理得到拿量梯度和消耗梯度的表达式。 其中 分别表示在状态s和出价a下按照出价策略到一天结束的累积拿量和消耗。 至此我们给出完整的拉格朗日梯度更新框架如下所示 其中 均需要当前出价策略的轨迹样本才可以计算因此我们沿用了MBRL中的神经网络离线仿真器进行训练样本的生成。 下面展示了Lagrange-MBRL的整体算法流程。 4.3 实验结果 4.3.1 在线实验 我们在阿里妈妈万相台无界版全站推场景的 TargetROAS 计划上分别进行了Lagrange-MBRL的计划AB和预算AB实验两个实验结论基本一致带来消耗 6.8% / GMV 3.8% / 达标率基本持平的效果提升。 4.3.2 消融实验 在消融实验中我们考察拉格朗日对偶梯度法在训练过程中对于ROI约束的保障作用。 实验设置分别利用拉格朗日对偶梯度法和reward shaping的方法在10个不同的seed下训练出价策略。考察在训练过程中出价策略在10000个计划上超额和欠额的幅度情况理想情况均应逐渐下降。离线实验结果如图7所示可以看到利用拉格朗日对偶梯度法训练过程中出价策略的超额和欠额幅度均逐渐减小而reward shaping方法则不能实现同时下降。特别地拉格朗日对偶梯度法可以有效降低超额幅度验证了拉格朗日对偶梯度法对于ROI约束的保障作用的优势。线上实验结果超额交付计划比例-1pt双边达标率0.3pt与离线结果一致。 图7. 拉格朗日对偶梯度法和reward shaping方法在训练中出价策略的超额和欠额幅度的变化趋势。 ▐ 关于我们 阿里妈妈智能广告平台算法团队 主要负责建设阿里妈妈万相台无界版广告产品的算法体系和阿里妈妈决策智能平台紧密围绕淘系电商商家的不同营销需求利用最先进的算法技术帮助商家获得最极致的广告投放效果和体验主要涉及强化学习、深度学习、运筹优化等前沿技术团队发表过多篇NeurIPS、ICML、KDD等顶会论文。我们始终相信并且一直践行着通过技术创新来提升效率、变革商业、普惠商家。 简历投递邮箱 alimama_techservice.alibaba.com ▐ 参考文献 [1] He Y, Chen X, Wu D, et al. A unified solution to constrained bidding in online display advertising[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery Data Mining. 2021: 2993-3001. [2] Kumar, A., Zhou, A., Tucker, G., Levine, S. (2020). Conservative Q-Learning for Offline Reinforcement Learning. ArXiv, abs/2006.04779. [3]新一代自动出价范式在线强化学习SORL框架 [4] U, T., Thomas, G., Yu, L., Ermon, S., Zou, J. Y., Levine, S., ... Ma, T. (2020). Mopo: Model-based offline policy optimization. Advances in Neural Information Processing Systems, 33, 14129-14142. [5] Haarnoja, T., Zhou, A., Abbeel, P., Levine, S. (2018, July). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In International conference on machine learning (pp. 1861-1870). PMLR. [6] Yu T, Kumar A, Rafailov R, et al. Combo: Conservative offline model-based policy optimization[J]. Advances in neural information processing systems, 2021, 34: 28954-28967. [7] Liu X Y, Zhou X H, Li G T, et al. MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator[J]. arXiv preprint arXiv:2312.03991, 2023. [8] Chow, Y., Ghavamzadeh, M., Janson, L., Pavone, M. (2018). Risk-constrained reinforcement learning with percentile risk criteria. Journal of Machine Learning Research, 18(167), 1-51. END 也许你还想看 丨新一代自动出价范式在线强化学习SORL框架 丨生成式拍卖感知排列外部性的整页优化机制 丨PerBid在线广告个性化自动出价框架 丨 强化学习在广告延迟曝光情形下的保量策略中的应用 丨Bidding模型训练新范式阿里妈妈生成式出价模型AIGB详解 丨AIGB基于生成式模型的自动出价优化新范式 丨万字长文漫谈广告技术中的拍卖机制设计经典篇 丨开源 | AuctionNet: 针对大规模博弈环境的出价决策Benchmark 关注「阿里妈妈技术」了解更多~ 喜欢要“分享”好看要“点赞”哦ღ~