人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

N本腕バンディット問題

をプログラムしてみた。N本腕バンディット問題(2002/9/6)でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。

N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金(報酬)がもらえる。レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金(報酬)がもらえるかという問題。

ここでは探査率 epsilon を変えたときの変化をグラフにしてみた。epsilon は0から1を取る値で0に近いほど貪欲(最も報酬の多いレバーだけを選び続ける)になる。すなわち、目先の利益にとらわれる方法。逆に1に近いほどランダム(報酬に関わらずレバーを適当選び続ける)になる。0.1だと90%は貪欲に10%はランダムに選ぶようになる。

前にも書いたけど0.1のとき得られる報酬が最大になっている。epsilonをどうすれば報酬が最もよく得られるかという問題を探査(ランダム)と搾取(貪欲)のトレードオフという。

f:id:aidiary:20050806165203g:plain