読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



N本腕バンディット問題

強化学習

をプログラムしてみた。N本腕バンディット問題(2002/9/6)でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。

N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金(報酬)がもらえる。レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金(報酬)がもらえるかという問題。

ここでは探査率 epsilon を変えたときの変化をグラフにしてみた。epsilon は0から1を取る値で0に近いほど貪欲(最も報酬の多いレバーだけを選び続ける)になる。すなわち、目先の利益にとらわれる方法。逆に1に近いほどランダム(報酬に関わらずレバーを適当選び続ける)になる。0.1だと90%は貪欲に10%はランダムに選ぶようになる。

前にも書いたけど0.1のとき得られる報酬が最大になっている。epsilonをどうすれば報酬が最もよく得られるかという問題を探査(ランダム)と搾取(貪欲)のトレードオフという。

f:id:aidiary:20050806165203g:plain