今後の予定
はじめての学会発表(2004/3/15)の続き。
- 非同期更新の考察。非同期ってよくないのかな・・・ちゃんと収束するかとかも調べる。
- 収束性の保証。収束保証の数学的証明は読んでもよくわからない。数学的に保証はできなくてもより多くのタスク、大規模かつ実用的な問題に適用して実験的に確かめるとかすればある程度ましになるかも。
- 強化学習を適用できる(シミュレーション上の)実用的なタスクを探す(自分で作る?)。速くするアルゴリズム考えても速く計算したい問題がないと意味がない。強化学習アルゴリズムを高速化するアルゴリズムの改良って研究はなされているけどなんで速くしたいんだろう?もし速く計算したい(しなければいけない)タスクがなかったら・・・研究のための研究(2002/7/15)に陥ってしまいそう。
- 他の強化学習アルゴリズム(TD、Actor-Critic、Profit Sharing)に適用する。
- ニューラルネット、遺伝的アルゴリズム、プロダクションシステムなど並列計算機への実装がなされている研究分野とその実装法もっとよく調べてみる。
- 分散メモリ型もう一回考えてみる。提案していた論文はタスクの規模が小さすぎるから失敗したのか?規模がもっともっと大きければうまくいくのかも。
- 正確なデータをとっておく。論文に載せたデータが不正確ってわけではないけど。平均とるにしても試行回数をもっと増やしたほうがいい。10回くらいで決めると運悪く結果が偏ってしまう場合があるし。100回くらい自動でやるには、シェルスクリプト勉強しないとな(Perlでもいいけど)。
- 車の山登り問題が遅いのはパラメータ更新、Q(λ)のどちらのせいか調べる。