倒立振子制御問題 - 人工知能に関する断創録

倒立振子アプレット（2002/10/26）は、Actor-Criticを使っていたけど今回はテーブル型Q学習を使った。グラフィックは面倒なのでなし。Q学習を使ったので探査率 epsilon の影響がかなり大きくなった。探査率を大きくしてランダムな行動を取らせる確率を高くすると、とたんに失敗して棒のバランスをうまく取れなくなる。逆に探査率を低くすると、これまた局所解にはまって長時間棒のバランスがとれなくなる。このような探査をどれだけ行うか決める問題を探査と搾取のトレードオフ問題と言う。

探査と搾取のトレードオフはエージェントが一つでは必ず生じる問題だがマルチエージェントならどうか？複数エージェントを並列に動かすことで解決できるんじゃないかと思っている。エージェント1は搾取型で探査を全くしない行動選択を行い、エージェント2は探査をたくさんしてQテーブルを広く探索してやる。この2つを並列に動かせば学習に必要なCPU時間も短縮され、最適解も素早く見つけられそうな予感がする。