租赁问题,是对于某个设备的使用采取租用还是购买策略的决策问题。如果设备使用的需求时间少于某一个临界值,租用策略的总成本小于购买策略,最优的策略选择租用设备;如果使用时间大于该临界值,则选择购买设备。
在线租赁问题的研究始于计算机科学领域中著名的“租雪撬”问题[1]—一个滑雪的初学者不知道他对这项业余运动会感兴趣多长时间,即不知道他将要滑雪的次数是比临界值少还是多,因此他每次去滑雪都面临着是租用雪橇还是一次性购买雪橇的问题。文献[1]应用在线算法(online algorithm)设计的一个竞争策略是:租用雪橇直至租赁费用累计到几乎与雪橇价格相等时,然后一次性支付购买雪橇。该竞争策略可以保证雪橇使用费用不超过最优策略费用的2倍。在某个在线算法中,决策者在事先完全不知道未来信息的情况下设计在线策略(online strategy)与事先完全知道信息的最优离线策略(offline strategy)进行比较[2]:对于设备使用需求时间实例问题I,令costA(I)表示在线策略A对于该问题的费用,令costOPT(I)表示最优离线策略的费用,对于成本最小化问题,如果对于所有的I有costA(I)≤ rcostOPT(I)成立,则在线策略A是r竞争的;常数r是在线策略A的竞争比,竞争比的大小反映在线策略的性能,竞争比越小,在线策略性能越好。
在研究在线租赁问题过程中,可将问题决策看作是在线决策者和竞争对手之间的零和博弈。对于决策者设计在线策略以解决在线租赁问题,竞争对手根据决策者设计的策略,控制输入序列使得在线策略的竞争比尽可能大。同样地,决策者知道竞争对手是具有完全信息的敌人,因此将选择一个最坏情形下最好的在线策略使竞争比最小。决策者的最优确定性在线策略的竞争比是无风险的,最优确定性在线策略本质上是一种悲观决策方法,这种方法由于完全忽视决策者的学习应变能力和一些有价值的信息而被批评过于保守。实际上,决策者在使用设备的过程中,随着使用时间的增加、经验数据的累积以及部分信息的显示,具有学习能力的决策者能在一定水平范围内判断需求时间是否达到临界值。此外,大多数决策者并不是完全无视一些有价值的信息规避风险,而是对管理风险更有兴趣,为了获得补偿愿意承担某种程度的风险。
自“租雪撬”问题之后,围绕在线租赁问题,国内外众多学者纷纷对如何改善在线策略的性能和拓展模型的应用展开了深入研究。Karlin等[2]给出了租赁问题的随机在线算法(randomized online algorithm),该模型中,在线决策者在与离线竞争对手进行博弈时不是在确定的某个时间点从租赁转换为购买,而是在租赁和购买策略之间选择给出一个概率分布函数(类似混合博弈策略)。Al-Binali[3]在风险-回报模型中指出决策者是在可以接受的风险程度下提高对未来信息的预测来获得补偿收益的,并给出了在一定风险容忍水平下在线租赁策略的集合,最优在线租赁策略由决策者的风险容忍水平决定。Krishnan等[4]、Xu等[5]研究了概率环境下的在线租赁问题,模型假设设备使用时间的输入序列具有一定的统计特征,从而获得在线租赁策略的一个预期(概率型)竞争比。另外还有一些文献研究了二重在线租赁问题[6]、离散型两斜率在线租赁问题的确定性策略与随机策略[7]、具有优惠合同的在线租赁问题[8]、预付保证金[9]和非线性折旧设备[10]的在线租赁问题,以及结合有限理性决策的鲁棒优化租赁决策问题[11]等等,这些研究拓展了“租雪撬”问题的应用范围。
在文献[3]的风险补偿在线租赁模型中,决策者在设计在线策略的同时需要确保在线策略的风险在某一容忍水平内,作者给出了一个给定风险容忍水平下的在线策略集合。然而,实际上当决策者的风险容忍水平是确定性常数时,对于租赁问题的决策,最优的风险在线策略(从租赁策略转换到购买策略的时机)是唯一确定的。此时,决策者不需要利用信息,只需要根据给定的风险容忍水平就能够设计最优的风险在线策略。最优的风险在线策略是给定的风险容忍度的函数,实质上与信息利用预测无关。在具有统计特征的在线租赁模型中[4-5],决策者需要对设备使用需求时间信息给出具体的概率分布特征,在线策略的预期竞争比受所给出的概率分布特征的影响。在概率性在线策略中,没有考虑决策者随着使用时间增加和经验积累对需求信息判断力的改变。
本文基于概率型竞争比模型研究具有判断学习能力的在线租赁问题。模型假定决策者能够判断设备使用需求时间是否超过临界值,且具有学习能力,即这种判断能力随着时间的增加和经验的积累呈线性递增。某个时间点的判断能力(判断正确)的值表示为时间的概率函数,也就是使用时间越长则判断设备需求时间是否超过临界值准确性的概率越大,判断正确则在线决策者获得一个改善性能的风险型竞争比,失败则得到一个比确定性竞争比性能差的竞争比。本文模型中的决策者不需要准确描述设备需求输入信息的概率分布函数,从而降低了对决策者复杂数学能力的要求,同时使得决策者可以有效利用其在实践过程中的经验和信息的积累对需求信息进行判断,以提高决策绩效。
1 数学模型考虑一个租赁问题决策,令B表示购买新设备所需要的费用,h为单位时间租赁设备的费用, T表示使用设备所需要的实际周期数,策略转换的临界值
当决策者处于一个复杂的不确定性环境下、没有关于未来设备使用时间的信息、不能描述一个合适的使用时间概率函数时,考虑一般的在线租赁策略:首先租赁设备直至第t周期结束,然后购买一个新的设备。
根据问题的定义和描述,在设备寿命周期内对于一个给定的设备使用周期T,在线租赁策略的成本函数可以表述为
$ C_{\mathrm{ON}}= \begin{cases}h T, & T \leqslant t \\ h t+B, & T>t\end{cases} $ | (1) |
当实际需要周期数T≤t时,决策者一直租赁设备在线策略成本为hT;当实际使用周期T > t时,在线策略的成本为累计租赁成本(ht)与在第t周期后购买新设备的成本(B)之和。
根据文献[1]可知,对于给定的设备实际需求周期数T,最优离线策略的成本为
$ C_{\mathrm{OPT}}= \begin{cases}h T, & T<S \\ B, & T \geqslant S\end{cases} $ | (2) |
因此,当实际需要周期数T < S时,租赁设备的成本小于购买策略的成本;当实际使用周期数T≥S时,购买策略的成本小于租赁策略的成本。
由经典的“租雪橇”问题可知,最优的确定性在线租赁策略是租赁设备直至t=S-1周期结束,然后选择购买设备。最优确定性在线策略的竞争比
本文借鉴泛证券投资组合问题中具有学习能力的在线决策者[12]。从初始租赁阶段开始,随着时间的延长,决策者的信息和经验在增加,其判断能力也在增加。为简化研究,假设决策者的判断能力是使用时间的线性递增函数,其定义如下。
定义 令
以rt′表示判断正确时在线策略获得的竞争比,rt表示判断不正确时在线策略获得的竞争比,则具学习能力的在线策略的预期(概率型)竞争比为
$ {Er}(t)=r_t^{\prime} \times p(t)+r_t \times[1-p(t)] $ | (3) |
在在线租赁问题中,具有学习能力的在线决策者在初始阶段首先选择租赁设备,然后在第t(0 < t < S-1)周期根据其获得的经验而形成的判断能力来判断实际需求是否超过临界值。若判断T < S,不改变策略选择继续租赁设备,进入下一个周期再进行判断;若判断T≥S,则转为购买。如果直到临界周期前一个阶段仍然没有判断T < S,则选择在t=S-1周期结束后转为购买策略,决策者没有有效利用其经验和信息进行判断,具有学习能力的在线租赁问题恢复为经典的确定性“租雪橇”问题。
当决策者在t周期判断T≥S时,如果判断正确,概率为p(t),在线策略成本为ht+B, 最优离线策略成本为B,竞争比为
$ r(t)=\frac{C_{\mathrm{ON}}}{C_{\mathrm{OPT}}}= \begin{cases}\frac{h t+B}{B}, & p(t)=\frac{t}{\beta S} \\ \frac{h t+B}{h T}, & p(t)=1-\frac{t}{\beta S}\end{cases} $ | (4) |
文献[3]定义了在线租赁策略的风险容忍水平。令r*表示最优确定性(无风险)在线策略的竞争比,策略t(即在线决策者在第t周期进行判断的策略) 预测成功的补偿收益定义为ft=r*/rt′,失败的风险定义为rt/r*。从决策者的角度来看,风险比值rt/r*反映了策略t对最优确定性在线策略的最大机会成本。令τ表示决策者的风险容忍水平(τ≥1,τ越大表明越偏好风险),则可以用tτ={t|rt≤τr*}表示决策者在风险容忍水平τ内的在线租赁策略集合。决策者的风险容忍水平τ决定了最优风险预测在线策略t,策略预测失败竞争比rt性能下降的风险也在可以容忍的风险水平τ内。
当决策者在第t周期预测判断T≥S正确时,离线竞争对手为使竞争比尽可能大总是会选择T=S;当预测判断不正确时,离线竞争对手则选择T=t+1,使在线策略竞争比尽可能大[3],所以在判断基础上的在线策略竞争比为
$ r(t)=\frac{C_{\mathrm{ON}}}{C_{\mathrm{OPT}}}= \begin{cases}\frac{h t+B}{B}, & p(t)=\frac{t}{\beta S} \\ \frac{h t+B}{h(t+1)}, & p(t)=1-\frac{t}{\beta S}\end{cases} $ | (5) |
定理 对于具有学习能力的在线风险租赁决策者,存在一个最优的风险容忍水平使其风险在线租赁策略的概率型竞争比最小。
证明 根据以上针对具有学习能力的在线决策者的定义,决策者在第t周期预测T≥S的概率型竞争比为
$ {Er}(t)=\frac{h t+B}{B} \times \frac{t}{\beta S}+\frac{h t+B}{h(t+1)} \times\left(1-\frac{t}{\beta S}\right) $ | (6) |
在式(6)中对t求二阶导数,则有
$ \begin{array}{l} \ \ \ \ \ \ \frac{\partial^2 E r(t)}{\partial t^2}=\frac{2 h^2}{\beta S B}+\frac{2(B-h)^2}{(h t+h)^4}- \\ \frac{2 h^2(t+1)\left(h^2-B h\right)}{\beta S(h t+h)^4} \end{array} $ | (7) |
因为B > h,有h2-Bh < 0,所以
如果风险决策者的判断正确,将获得一个补偿收益,其竞争比
$ \tau^*=r_{t^*} / r^*=\frac{B\left(h t^*+B\right)}{h\left(t^*+1\right)(2 B-h)} $ |
证毕。
3 结论本文研究具有学习能力的在线租赁决策问题,模型假定决策者随着时间的增加和经验的积累即可判断设备使用需求时间是否超过临界值,并且这种能力是递增的。与输入序列具有概率特征的在线租赁模型相比,本文模型中的决策者不需要准确描述输入信息的概率分布函数,只需要判断需求是否超过某个临界值,从而降低了对决策者能力的要求。与风险补偿模型相比,决策者有效利用了其在实践过程中积累的经验和信息对需求信息进行判断,从而获得最优的概率型竞争比和最优风险容忍水平,而不是在其选定的某一风险容忍水平下设计风险在线策略。分析表明,对于具有学习判断能力的在线租赁决策者,存在一个最优的风险容忍水平,在该容忍水平下判断租赁需求临界值获得的概率型竞争比最小。
[1] |
KARP R M. On-line algorithms versus off-line algorithms: how much is it worth to know the future[C]//Processing of the IFIP 12th Word Computer on Algorithms, Software, and Architecture-Information Processing. Madrid, 1992: 416-429.
|
[2] |
KARLIN A R, MANASSE M S, MCGEOCH L A, et al. Competitive randomized algorithms for nonuniform problems[J]. Algorithmica, 1994, 11: 542-571. DOI:10.1007/BF01189993 |
[3] |
AL-BINALI S. A risk-reward framework for the competitive analysis of financial games[J]. Algorithmica, 1999, 25: 99-115. DOI:10.1007/PL00009285 |
[4] |
KRISHNAN P, LONG P M, VITTER J S. Adaptive disk spindown via optimal rent-to-buy in probabilistic environments[J]. Algorithmica, 1999, 23: 31-56. DOI:10.1007/PL00009249 |
[5] |
XU Y F, XU W J, LI H Y. On the on-line rent-or-buy problem in probabilistic environments[J]. Journal of Global Optimization, 2007, 38: 1-20. DOI:10.1007/s10898-006-9079-z |
[6] |
徐维军, 陈晓丽. 二重在线租赁问题的竞争策略及其风险补偿模型[J]. 系统管理学报, 2018, 27(5): 944-949. XU W J, CHEN X L. Competitive strategy and risk-reward model for online fashion A-B leasing problem[J]. Journal of Systems and Management, 2018, 27(5): 944-949. (in Chinese) |
[7] |
胡茂林, 徐维军. 离散型两斜率在线租赁问题[J]. 系统工程理论与实践, 2019, 39(7): 1680-1689. HU M L, XU W J. Discrete online leasing problem with two slopes[J]. Systems Engineering-Theory & Practice, 2019, 39(7): 1680-1689. (in Chinese) |
[8] |
徐维军, 董鹏翠, 彭子衿. 基于优惠合同的在线租赁策略设计[J]. 运筹与管理, 2019, 28(3): 183-190. XU W J, DONG P C, PENG Z J. The design of online leasing strategy based on preferential contract[J]. Operations Research and Management Science, 2019, 28(3): 183-190. (in Chinese) |
[9] |
刘斌, 宋玲玲, 王璇. 基于遗憾理论的有限理性租赁决策分析[J]. 北京化工大学学报(自然科学版), 2017, 44(2): 114-118. LIU B, SONG L L, WANG X. Limited rational leasing or buying based on regret theory[J]. Journal of Beijing University of Chemical Technology (Natural Science), 2017, 44(2): 114-118. (in Chinese) |
[10] |
吴帆, 辛春林, 刘斌, 等. 基于预付保证金情形下占线租赁策略研究[J]. 管理评论, 2018, 30(10): 248-257. WU F, XIN C L, LIU B, et al. A study on the strategy of online leasing under the condition of down payment[J]. Management Review, 2018, 30(10): 248-257. (in Chinese) |
[11] |
胡茂林, 陈晓丽, 徐维东. 非线性折旧下设备在线租赁策略及其竞争分析[J]. 管理工程学报, 2021, 35(4): 226-233. HU M L, CHEN X L, XU W D. The strategy and its competitive analysis of online leasing problem that depreciates based on the nonlinear function[J]. Journal of Industrial Engineering and Engineering Management, 2021, 35(4): 226-233. (in Chinese) |
[12] |
张卫国, 张永, 徐维军, 等. 基于线性学习函数的泛证券投资组合策略[J]. 系统工程理论与实践, 2012, 32(8): 1647-1654. ZHANG W G, ZHANG Y, XU W J, et al. Universal portfolio based on on-line learning of linear function[J]. Systems Engineering-Theory & Practice, 2012, 32(8): 1647-1654. (in Chinese) |