強化学習の並列化 - 人工知能に関する断創録

最近、面白いと思うネタがあまりない。今日は強化学習に関する論文について整理しておくことにする（書いててもあまり面白くないが）。

A. M. Printista: A parallel implementation of Q-Learning based on communication with cache (PDF)

自分がやろうと考えてた研究（？）に最も近い。強化学習は学習スピードが遅い。そこで並列計算機上で走らせて高速に実行させようというのが目的。分散メモリ型でPVM（Parallel Virtual Machine）を使っている。状態行動価値関数を分割して各プロセッサに割り当て（データ分割手法）、それを並列更新して速くしている。8プロセッサを越えると通信のオーバヘッドが大きくなり速度が落ちてしまっている。分散メモリは通信のコストが問題になるらしい。状態行動価値関数がテーブル形式である点が問題だと思う。今後の進展はあるのだろうか？

R. M. Kretchmar: Parallel Reinforcement Learning (PDF)

題名を見てまさしくこれだ！と期待したが少し違った。複数のエージェントが同時並列的に学習し、一定期間ごとに学習結果を融合する（行動価値関数を評価回数で重みづけし線形和（？）を取る）ことによって高速化している。Parallelとあるけど並列計算機上で走らせることには言及していない。行動価値関数の融合は後で役に立つかもしれない。

G. Weiß: A Multiagent Perspective of Parallel and Distributed Machine Learning (PDF)
M. Kaya: Parallel and Distributed Multi-Agent Reinforcement Learning

Parallelとあるが並列計算機には言及していない。マルチエージェント系でジョブ配置問題に適用している。speed-up, effectiveness, reasonable time とかいう言葉があるけどCPU時間のことを言っているのかよくわからない。

強化学習を並列計算機上で実装して高速化！という論文はあまりないように思われる。探し方があまいかもしれないが。ただマルチエージェント系の強化学習を扱っているものは並列計算機上での実装と非常に相性がよいような感じを受ける。ヒントになりそう。