咱们先斟酌最根基的MAB問题。如上圖所示,你進了一家赌场,假如眼前有 K 台山君機(arms)。咱们晓得,山君機本色上就是個命运遊戲,咱们假如每台山君機 i 都有必定几率 p_i 吐出一块錢,或不吐錢( 几率1-p_i )。假如你手上只有 T 枚代币(tokens),而每摇一次山君機都必要耗费一枚代币,也就是說你一共只能摇 T 次,那末若何做才能使得指望回報(expected reward)最大呢?
此外MAB有一類很首要的變種,叫做contextual MAB(cMAB)。几近台北外送茶,所有在線告白推送(dynamic ad display)均可以當作是cMAB問题。在這種問题中,每一個arm的回報會和當前時段呈現的主顾的特性(也就是這里說的context)有關。一样,今天咱们不開展讲cMAB,這會在以後花文章專門會商。
此外,若是每台山君機天天摇的次数有上限,那咱们就获得了一個Bandit with Knapsack問题,這種問题以傳统组合優化里的背包問题定名,它的钻研也和近来很多钻研在線背包問题的文章有關,以後咱们也會專門會商。另有不少變種,如Lipshitz bandit, 咱们再也不有有限台呆板,而有無穷台(它们的reward function知足利普西茨持续性)等等。。题主既然要最普通的版本,以是這里就不赘述了,有樂趣深刻领會的同窗们可以斟酌存眷我的專栏系列文章,主如果讓大師有更好的筹备去读一些專門的册本文献~
在论文“Combinatorial Multi-Armed Bandit: GeneralFramework, Results and Applications”中,咱们進一步将组合多臂山君機模子扩大為容许有随機被触發臂的模子。這一模子可以被用于在線序列举薦、社交收集病毒式營销等场景中,由于在這些场景中前面动作的反馈可能會触發更多的反馈。但是在其理论成果中,咱们包括了一個和触發几率有關的項,而這個項在序列举薦和病毒營销场景中城市過大,造成在線進修淡斑藥膏,结果欠好。在本年刚被登科的NIPS论文“ Improving Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms and Its Applications”中,咱们完全解决了這個問题:一方面咱们论证了序列举薦和病毒營销等知足某種特定前提的問题都不會有這個欠好的項,另外一方面咱们指出在更一般的组合多臂山君機中這個項又是不成防止的。這是今朝钻研可触發臂的组合多臂山君機中最佳的一般成果。