A/B测试:對比统计假設测试與多臂老虎機
编译:weakish跟着精益創業和大数据的鼓起,愈来愈多的公司起頭拥抱A/B测试。虽然業界起頭基于数据统计测试特征這一點非常振奋人心,但很少有公司意想到多臂山君機這一優于傳通通计假如测试的替换方案。本文将概述為安在大大都利用中,多臂山君機優于假如测试。不認識為什麼基于数据测试特征很首要的读者,可以看看我以前写的博客文章 Bridging the gap between lean startup in theory and in practice。必要社會認同的读者,Google Analytics用的就美牙筆,是多臂山君機方案。
A/B测试的假如测试的方针是查明觀测到的转化率差别是不是有命运之外的诠释。尺度法子以下:
“多臂山君機”這一位称描写了如许一個场景:一位赌徒面临着几台“单臂山君機”,每台山君機的指望返水分歧。方针是頸椎貼布,最大化一系列拉杆操作汽車補漆,的总回報。為了告竣這一方针,多臂山君灵活态均衡經由過程拉动不肯定的摇杆采集信息的价格(摸索)和拉动已知回報丰富的拉杆的累计回報(操纵)。
在A/B测试的语境下,每台山君機代表實验中的一個實行组,每次拉摆荡杆代表一個實行组的一次暴光,累计回報代表累计转化。多臂山君機問题有不少分歧的算法,好比UCB、Epsilon-Greedy等,本文将聚焦于一種名為“汤普森采样”的算法。
汤普森采样的思绪很是简略。该算法保護每臂的返水率的後验散布,依照在该後验散布下给定臂最優的几率,成比例地拉动拉杆,接着按照新觀测更新後验。比方,對两個觀测到转化率為10/150和5/100(转化数/暴光)的實行组而言,厥後验转化率散布為Beta(10, 140)和(5, 95)。按照转化率,後续的测试應當在第一個實行组长進行,由于该组的转化率较高。但汤普森采样其實不采纳這類肯定的法子,而是基于當前的後验转化率散布随機取样,决议在哪一個實行组长進行,二者的几率别離為P(第一组是最好實行组)和P(第二组是最好實行组)。最後,按照新觀测数据更新後验散布。致不認識贝叶斯统计的读者,贝塔散布常常用作伯努利散布(用来建模转化率)的共轭先验散布。
如今咱们關節消炎止痛膏,已根基领會统计假如测试和多臂山君機(汤普森采样),讓咱们比力一下二者。
总结一下,在實践中,比拟傳通通计假如测试,多臂山君機有很多上風。它凡是更快收敛,误會的空間更小,能更好地推行最多實行组,必要调理的参数也较少。向當真看待A/B测试的創業公司强烈举薦多臂山君機法子。
頁:
[1]