共有メモリ型並列計算機上での強化学習 学習曲線
どのくらい高速化できるのか調べてみた。結果は次のグラフのようになった。10以上に増やしてもこの問題(197x197の迷路問題)ではこれ以上速くならなかった。
他に、各エージェントの初期位置をランダムに配置するようにして実験してみた。こうすれば状態空間をより効率的に探索できるように思っていたのだがそうはならなかった。おそらく初期位置がゴール近くになってしまった場合、その過程で得られる経験がスタートから始める場合に比べて少なくなってしまうからだと考えられる。スタートから初めてできるだけ多く経験した方がQテーブルの更新は速くなる。よく考えれば当たり前か?
他に各エージェントの方策を変えた場合に変化がおきるかだがこれもあまり芳しくなさそうだった。epsilon-greedy方策の探査率 epsilon を変化させて試しただけだがほとんど変化なしっぽい(逆に悪くなってるかも)。他戦略RLの論文もあるからもっと調べる必要あり。
あとはこれを並列計算機で実行して実行時間の短縮を確かめる。OpenMPっていうのを使うらしい。まあ普通にpthreadとかでもできるようだが。