bandit算法(老虎機問题)

admin · 發表於 2023-9-19 13:08:32

bandit問题最先在1952年被Herbert Robbins提出，被大量用于临床實验，投資组合辦理，举薦體系等范畴中，也包含AlphaGo。

山君機（bandit）是赌场里常见的一種呆板，玩家将硬币投入後拉下拉杆，接着會随機呈現分歧圖案，若是遏制時呈現不异圖案，则可以按照相干赔率得到特定的收益（reward）。简略點說就是每台山君機你能赚錢的几率纷歧样，你该怎样样讓你赚更多的錢就是Bandit問题。

若是用告白投放去理解的话可能更易一些，假如你有機遇给统一個用户投放100個告白，這100個告白细分在十種種别下，好比說册本類告白，活动類告白等等等等，你在投放告白的進程中要去搞大白用户到底喜好哪一類此外告白，讓CTR點击率最大化這就是bandit問题。

可是有一個問题就是在你刚起頭玩山君機，你不晓得每台山君機讓你赚錢的几率是几多，或刚起頭投放告白的時辰，你不晓得每一個用户更偏心于哪種類型的告白，因而就引出了"摸索"(七日孅減肥茶,exploration)的觀點治療龜頭炎,，简略来讲就是试一下，试玩一下山君機看看他收益几率高不高，试着投放一種類型的告白，看看用户點不點進去看，堆集足够次数的摸索，對付每台呆板的收益几率，每一個告白的點击率有了必定的领會以後，就引出咱们另外一個觀點“開辟”（exploitation），也就是你經由過程前面的“摸索”已晓得哪一個山君機收益几率最高，那末接下来你就一向玩這個山君機，哪一種類型的告白用户最喜好，那末接下来你就一向给這個用户投放這類告白（换句话說就是一向举行“開辟”），如许就可以最大化收益了。

現實上這就是举薦體系范畴中两個經典問题之一的EE（exploration-exploitation）問题，（另外一個是用户的冷启动問题，接下来也會讲到）

若何更好的處置EE問题就是Bandit問题的焦點，简略来讲，暖手寶,若是摸索的太多，你可能就會把不少時候挥霍在低收益几率的山君機上（或是低點击率的告白）；反之，若是摸索的太少也是問题，可能會错事後面的高收益几率的山君機（高點击率的告白）。

基于此提出了

ε-first 中的 ε ，指的是摸索次数占总次数的百分比。

假如玩家只能玩1000次山君機，ε = 10%，那末在举行前100次遊戲時玩家城市處在摸索阶段，摸索分歧的山君機的收益几率（分歧告白的點击率），在以後的900次遊戲里，全数玩收益几率最高的那台山君機（投放最高點击率的告白），如许只要找到最合适的ε 值， 就可以将收益最大化。

可是ε-first 實在有两個比力大的問题，一是在前100次遊戲里，是不是真的摸索足够了？若是今天有250種可能收益几率（250種點击率几率），那末前100次遊戲中咱们就有可能不克不及找到最優解决方案（最高收益山君機或最高點击率的告白），另外一個問题是，在這前100次的摸索中現實上咱们很大要率是只能得到很低的收益，也就是說這100次摸索咱们可能绝大屡次都挥霍在低收益的计谋上了。

那末基于這两個問题，提出了

ε-greedy：邊學邊玩（贪心）

ε-greedy 是但愿可以或许在极力開辟的同時，偶然也去试着摸索，是以在每轮選擇時，有ε 的几率随機選擇一種方案去摸索（無论收益的），有1-ε 的几率是去選擇收益最大的方案開辟。

如许的话 ε-greedy 就解决了方才提到的两個問题，第一個，摸索次数是不是不敷，ε-greedy 在每轮起頭都有機遇去摸索，只要没有到达最大收益，始终是有必定几率去摸索。第二個，ε-first 的摸索阶段其實是挥霍了很大的收益，ε-greedy 则是在每轮起頭城市按照你設置的 ε值的巨细去举行對應几率的@摸%9K62q%索或開治療肩頸痛,%Kp9iR%辟@，如许比拟于 ε-first 摸索阶段的挥霍，提高了收益。

可是，可是，可是

但是跟着次数n的增长，你對分歧方案的收益几率也就愈来愈领會，這時辰摸索的感化也就愈来愈小，那末你每轮起頭時辰依然有 ε 的几率去做摸索的话也就是在挥霍收益了，是以ε-greedy 就被扩大為了εn-g搓泥神器,reedy ，也就是在每轮起頭時，有 εn 的几率去摸索，1 - εn 的几率去開辟（選擇最高收益的方案），如许跟着轮次的增长，摸索的几率也就低落，也就到达了咱们最大化收益的目標

ε 設置的大模子就會有更大的機动性（能更快的摸索到未知，顺應變革），ε 小的话會有更好的不乱性（有更多機遇去"開辟"）

		自動登錄	找回密碼
密碼			立即註冊