テトリスの学習

強化学習

強化学習を使ったおもちゃとして、今回はテトリスをやってみようと思う。テトリスの場合、迷路より状態行動空間が大きくなるため状態の一般化がかかせない。つまり、状態行動価値の表現をテーブルではなく、線形関数やニューラルネットにする必要がある。テ…

2003-09-16

PCクラスタ上での強化学習探査率の影響

強化学習

MPIで一番簡単な方式を実装した。 127X127の迷路問題簡単のためマスター1つ、スレーブ1つで構成スレーブからマスターへの行動価値テーブルの送信は2000エピソードごとに行うマスターは送られてきたテーブルを結合するテーブルの結合は更新回数で重みづけ…

2003-09-14

強化学習の応用事例続き

強化学習

強化学習がどんな応用に使われるか列挙してみる。セルラー通信システムの周波数帯の動的割り当て在庫管理・生産ラインの最適化ジョブショップスケジューリングエレベータ群制御電力網の分散学習制御インターネットバナーの最適化コンパイラの命令スケ…

2003-09-08

強化学習の応用事例

強化学習

今年の合宿では強化学習がどんな応用に使われていて、どのようなことが期待できるのかを簡単に発表した。そのまとめ。強化学習の特徴は次のようにまとめられる*1。設計者が「何をすべきか」をエージェントに報酬という形で指示しておけば「どのように実現す…

2003-08-21

PCクラスタ上での強化学習 Qテーブルの結合

強化学習

共有メモリ型の方もまだ問題があるが、分散メモリ型の方を少し考えた。クラスタ上で並列に強化学習を行う場合に最も問題となるのは、別々に学習したQテーブルをうまく結合できるかという点だと思う。というわけで実験してみた。結果が次のグラフ。PC1とPC2で…

2003-08-18

報酬の例2

強化学習

Skinnerは、特定のクラスの条件性強化子に対して「般性強化子」という用語を使った。おそらく般性強化子の最もよい例はお金であろう。この強化子が、社会で働いている人の行動を維持していることは明白である。もし雇用者が、もう一切給料を払わないと言えば…

2003-08-17

報酬の例

強化学習

強化学習においての報酬とは現実の何にあたるのかという問題は少し気になる。例えば、強化学習と報酬（2002/11/20）とか報酬の自律生成（2003/2/18）で少し考えていた。強化学習を最適化アルゴリズムの一種と考えればそんなことどうでもよい問題（報酬はタス…

2003-08-08

共有メモリ型並列計算機上での強化学習学習時間が変だ・・・

強化学習

共有メモリ型並列計算機上での強化学習複数CPU（2003/8/1）の続き。前の結果を見ると、1スレッドと2スレッドの間は10倍遅くなっているが3スレッドにすると速くなっている。何か怪しかったけどさらにスレッドを増やして測定してみた。学習曲線は学習収束まで…

2003-08-01

共有メモリ型並列計算機上での強化学習複数CPU

強化学習

共有メモリ型並列計算機上での強化学習（2003/7/23）の続き。同期を取っていたせいで実行速度が遅いと思っていたので、同期を全く取らないように修正し、収束するまでの時間を測定した。結果、1スレッド 6秒、2スレッド約50秒、3スレッド約24秒・・・何な…

2003-07-23

共有メモリ型並列計算機上での強化学習

強化学習

共有メモリ型並列計算機上での強化学習（2003/7/6）で間違いに気づいて同期を使うことになった。苦労してやっと実装したが、無茶苦茶遅くなった。並列計算しようと思ってスレッドを作るたび、実行速度が落ちるのが目に見えて分かる。どうやら同期に使ったmut…

2003-07-06

共有メモリ型並列計算機上での強化学習

強化学習

共有メモリ型並列計算機上での強化学習（2003/6/18）で1エージェントの収束に比べて、2エージェントの収束がやけに早いことが疑問だったが原因がわかった。各エージェントはスレッドで同じ関数を実行していたのだけど、エージェント1のスレッドだけに画面へ…

2003-07-01

Omni OpenMP

強化学習

OpenMPは共有メモリ型並列計算のライブラリ。これについていろいろ調べてたところ、フリーのOpenMPコンパイラであるOmni OpenMPというのを知った。早速、Linuxにインストールしようとしてあれこれやって時間をつぶしたが結局できなかった。また明日やるか・…

2003-06-22

N本腕バンディット問題

強化学習

をプログラムしてみた。N本腕バンディット問題（2002/9/6）でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金（報酬）がもらえる。レバ…

2003-06-21

共有メモリ型並列計算機上での強化学習学習曲線

強化学習

どのくらい高速化できるのか調べてみた。結果は次のグラフのようになった。10以上に増やしてもこの問題（197x197の迷路問題）ではこれ以上速くならなかった。他に、各エージェントの初期位置をランダムに配置するようにして実験してみた。こうすれば状態空間…

2003-06-18

共有メモリ型並列計算機上での強化学習

強化学習

（注）この結果は間違いでした。共有メモリ型並列計算機上での強化学習（2003/7/6）を参照。学習曲線を描いてみた。タスクは197x197の迷路問題。状態数は約40000、行動数は上、下、右、左の4つ。よってQテーブルは40000x4の二次元配列で表した。縦軸はスター…

2003-06-17

共有メモリ型並列計算機上での強化学習

強化学習

今日は、共有メモリ型並列計算機で強化学習を実装する前段階としてスレッドを使って逐次計算機上で実装してみた。構想しているのは下の図のような感じ。共有メモリ上にQテーブルがある。異なるプロセッサ（PE:Processing Elementと表記）上で動いているエー…

2003-06-15

Acrobatアプレット

強化学習

を書いた。acrobat.jar鉄棒の体操選手が脚を高く振り上げるのをシミュレーションしたようなもの。今回は参考ソースがなかったので前に作った倒立振子を参考に苦労して作った。特に運動方程式が複雑でかなり疲れた。棒の動きを見て、機械学習はすごいと改めて…

2003-06-14

倒立振子制御問題

強化学習

倒立振子アプレット（2002/10/26）は、Actor-Criticを使っていたけど今回はテーブル型Q学習を使った。グラフィックは面倒なのでなし。Q学習を使ったので探査率 epsilon の影響がかなり大きくなった。探査率を大きくしてランダムな行動を取らせる確率を高くす…

2003-06-09

強化学習の並列化

強化学習

最近、面白いと思うネタがあまりない。今日は強化学習に関する論文について整理しておくことにする（書いててもあまり面白くないが）。 A. M. Printista: A parallel implementation of Q-Learning based on communication with cache (PDF) 自分がやろうと…

2003-05-22

Neuro-Dynamic Programming

強化学習

Neuro-Dynamic Programming (Optimization and Neural Computation Series, 3)作者: Dimitri P. Bertsekas,John N. Tsitsiklis出版社/メーカー: Athena Scientific発売日: 1996/10/01メディア: ハードカバークリック: 3回この商品を含むブログ (2件) を見る…