Lin's Dynamic World
昔いつか実装しようと思ってそのままにしていた強化学習の面白いタスクがあった。それが L. Lin という人の提案したDynamic Worldだ。
L. Lin: Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching, Machine Learning, Vol.8, pp.293-321, 1992.
もうかなり古い研究なのだが読んだ瞬間に面白そうだと思った。この論文では下のような新しい動的な世界を提案している。
このタスクにおけるエージェントの目的は敵を避けながら食料を集める方法を試行錯誤を通して学習することだ。食料を得たら報酬、敵に触ったら罰を受ける。またこの論文では教示の導入も検討されている。敵は移動する(環境が動的)ので迷路や倒立振子などに比べたら複雑な環境になっている。
学習機構はQ-Learningと3層パーセプトロンを用いる。状態は124個のセンサー(食料センサー、敵センサー、障害物センサー)から取得するためQテーブルではサイズが大きくなりすぎてしまうのだ。
とりあえず追試してその後拡張していきたい。うまくいったらパックマンを知識なしから自動学習させたいな。