N本腕バンディット問題
をプログラムしてみた。N本腕バンディット問題(2002/9/6)でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。
N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金(報酬)がもらえる。レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金(報酬)がもらえるかという問題。
ここでは探査率 epsilon を変えたときの変化をグラフにしてみた。epsilon は0から1を取る値で0に近いほど貪欲(最も報酬の多いレバーだけを選び続ける)になる。すなわち、目先の利益にとらわれる方法。逆に1に近いほどランダム(報酬に関わらずレバーを適当選び続ける)になる。0.1だと90%は貪欲に10%はランダムに選ぶようになる。
前にも書いたけど0.1のとき得られる報酬が最大になっている。epsilonをどうすれば報酬が最もよく得られるかという問題を探査(ランダム)と搾取(貪欲)のトレードオフという。