読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



倒立振子制御問題

倒立振子アプレット(2002/10/26)は、Actor-Criticを使っていたけど今回はテーブル型Q学習を使った。グラフィックは面倒なのでなし。Q学習を使ったので探査率 epsilon の影響がかなり大きくなった。探査率を大きくしてランダムな行動を取らせる確率を高くすると、とたんに失敗して棒のバランスをうまく取れなくなる。逆に探査率を低くすると、これまた局所解にはまって長時間棒のバランスがとれなくなる。このような探査をどれだけ行うか決める問題を探査と搾取のトレードオフ問題と言う。

探査と搾取のトレードオフはエージェントが一つでは必ず生じる問題だがマルチエージェントならどうか?複数エージェントを並列に動かすことで解決できるんじゃないかと思っている。エージェント1は搾取型で探査を全くしない行動選択を行い、エージェント2は探査をたくさんしてQテーブルを広く探索してやる。この2つを並列に動かせば学習に必要なCPU時間も短縮され、最適解も素早く見つけられそうな予感がする。