Dual Mirror Descent for Online Allocation Problems

Source

在线分配问题
需求重复到达—>每个需求都要决策动作:获得奖励和消耗资源。
问题:在资源约束下最大化奖励
挑战:未来需求未知

提出一种算法:
每个资源有权重
用调整权重奖励的贪婪方法来执行动作。
用镜像下降更新权重

算法
镜像下降允许
乘法权重更新

对比现有算法
基于对偶。含有拉格朗日变量对每种资源
现有方法:为对抗输入设计、需要求解线性规划或者凸优化。本文简单快速、不用解凸优化。
模型
有限范围T个阶段、
j=1…m 有Bj容量限制
在每个阶段:
接受一个凹的、有界的奖励函数ft
接受一个消耗矩阵bt
在一些凸的紧凑的集合X中采取动作xt
收集奖励ft(xt)和消耗bt(xt)

离线问题:
目标是max ft(xt),就一个约束小于容量约束。

在线问题:
假设需求(ft,bt)服从未知独立同分布
用P表示需求的未知分布

基于历史观察数据做决策
已知T的长度和容量B
不知道输入的分布
需要满足资源约束

在输入分布P下算法A的累计期望奖励 R(A|P)
输入P的离线期望奖励 OPT§
输入分布最坏情况的Regret(A) 是以上两者相减。

拉格朗日对偶抢救?

从资源约束引入拉格朗日乘子 u ∈Rm 得到
公式D(u|P) (关键点:决策分解across time)
对于任意u>0 ,对偶函数提供了一个上界。
公式OPT§ < D(u|p)(关键点:对于最优对偶变量,上界是无症状asymptotically紧,当T和B很大时)

拉格朗日对偶抢救?(连续)
挑战1:如何决策
如果最优对偶变量u已知,我们能采取action 来最大化对偶变量调整后的奖励。
xt=argmax(ft(x)-(u
)Tbtx)
但是我们事先不知道u*
挑战2:我们如何计算好的对偶变量
我们能获得对偶函数的次梯度的噪音,无偏的观察。
通过使用镜像下降最小化对偶函数来计算对偶变量。

在线对偶镜像下降算法
初始化对偶解uo∈Rm ,η步,参考函数
循环 t=1…T
1观察需求(ft,bt)
2决定一个动作:xt=argmax(ftx-utbtx)
3如果资源够:执行一个动作xt。如果执行空动作
4更新资源:Bt+1=Bt-btxt
5更新对偶变量μt+1=argmin(随机对偶次梯度μ+1/η贝格曼散度)

举例
投影梯度下降:如果参考函数是l2范数,对偶的更新是:
公式()
乘法权:如果参考函数是负交叉熵,更新是
公式()
如果奖励消耗超过了预算B/T —> 对偶变量上升并且资源价格提高 —>未来动作消耗资源更谨慎。
理论结果
定理:假设参考函数是坐标可分并强凸的。如果η约等于T-1/2 次,B和T成比例,那么在线对偶镜像下降算法的regret满足
公式()
可能的结果:
1算法是渐进最优的,例如1/T Regret(A)->0 as T->∞
2界是紧的,更好的regret界是不可能的
3这个界在其他约束可能不紧,尤其是对比周期性求解凸优化的算法。
证明的主要两步
1算法不过早耗尽资源
公式()
2在用完资源前,平均累计奖励接近于对偶目标值:
公式()

结论
1有预算的重复拍卖的投标;有差异的在线匹配
2简单快速的求解随机输入,不用解凸优化
未来工作
1分析不同输入的表现
2合并正则项来最大化二阶目标(公平或负载均衡)