N本腕バンディット問題 - 人工知能に関する断創録

をプログラムしてみた。N本腕バンディット問題（2002/9/6）でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。

N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金（報酬）がもらえる。レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金（報酬）がもらえるかという問題。

ここでは探査率 epsilon を変えたときの変化をグラフにしてみた。epsilon は0から1を取る値で0に近いほど貪欲（最も報酬の多いレバーだけを選び続ける）になる。すなわち、目先の利益にとらわれる方法。逆に1に近いほどランダム（報酬に関わらずレバーを適当選び続ける）になる。0.1だと90%は貪欲に10%はランダムに選ぶようになる。

前にも書いたけど0.1のとき得られる報酬が最大になっている。epsilonをどうすれば報酬が最もよく得られるかという問題を探査（ランダム）と搾取（貪欲）のトレードオフという。

f:id:aidiary:20050806165203g:plain