強化学習の並列化
空白期があったけどなんとなく再開。今年は強化学習の並列化というテーマで研究(になってればいいが)しようと思う。去年の強化学習のサーベイにより強化学習は非常に遅い点が問題となっていることがわかった。後でまとめるが「強化学習が遅い」といった場合、一般的に大量のトレーニングエピソードが必要なことを指す。だけど収束に必要な計算時間という点でも十分に遅い。
例えば、前にも書いたTD-Gammonは学習に2週間必要だそうだ(『エージェントアプローチ人工知能』の p.621)。計算時間の短縮は必要だと思う。計算時間の短縮というと自分の所属している研究室の影響から並列化というのがすぐに思い浮かぶ。というわけで今年の目標は強化学習アルゴリズムを並列実行させ、高速化を目指すことにした。何か結果が出せればいいな。ってかある程度結果が出ないと卒業できないんだった。