はじめての学会発表 - 人工知能に関する断創録

に行ってきた。強化学習アルゴリズムの並列化に関するテーマで初の学会発表だった。今回の研究会のテーマは「社会システムにおける知能」とのことだったが、「一般」で発表させてもらった。校内で発表するのとは違いかなり緊張した。

コメントとQ&Aのまとめ。

強化学習で並列化するという研究はなされていない。Profit Sharingなどほかのアルゴリズムでもためしてみたらどうか。

ありがたいコメント。今回やったのは、Q-learningとQ(λ)の並列化のみ。Profit SharingやActor-Criticなどの異なるアルゴリズムでもやってみた方がいい。強化学習のすべてのアルゴリズムの基本は価値関数の更新なのでたぶんできると思う。

収束はどう判定したか？

実際にプログラムを動かしてステップ数をファイルに書き出し、ファイルの中身を見て収束している点を探した。収束が判定しやすいように探査率 ε を0にした。

それは最適解なのか？

Q-learningは最適解が保証されることが数学的に証明されている。

今、思うとこの答えはまずかった。探査率 ε を0にしたらQ-learningの収束条件を満たしていない！最適解という保証はないじゃん・・・。それに収束をどう判定するかって問題はかなり前にディスカッションで出てきていた。もっと考えておくべきだった。この質問してくれた先生も強化学習関係の発表をしていた。やっぱ収束性の判定って気になるところなのかな。

車の山登り問題の結果は迷路問題に比べて速度が低下している。この手法はタスク依存なのではないか？

車の山登り問題に用いたアルゴリズムは Q(λ)。迷路問題で使ったアルゴリズムはQ-learning。Q(λ)はQ-learningより計算量が大きいため速度が低下してしまったのだと考えている。車の山登り問題にもQ-learningを使えば速度低下は起きないはず。

最初、車の山登り問題の方が速度低下しているのは行動価値関数に線形関数を使いパラメータ更新しているからか？と思っていた。しかし、よーくプログラムを見てみると車の山登り問題に使っていたのはQ(λ)（あれ、SARSA(λ)だったりして・・・）という迷路問題とは別のアルゴリズムだった！遅くなった理由はパラメータ更新のせいか、Q(λ)のせいか、要確認。

山登り問題のパラメータ数はいくつか？

3000くらい。

今、プログラム確認したら3000だった。ほっ。

「〜という理由で強化学習は速くしても無意味だ」ってふうに研究の方向性を否定されなくてよかった。

その他の研究発表では社会システムのモデル化、マルチエージェントが主なものだった。これらの話はけっこう楽しめた。社会の仕組みをマルチエージェントでモデル化するという研究分野のようだ。人工社会、人工市場って分野の話らしい。そういえば、前に読んだ（2003/1/16）『複雑系』って本にも新しい経済学ってことで紹介されていたな。囚人のジレンマとかゲーム理論とか少し勉強していたのである程度内容も理解できた。発表者の一人の和泉潔さんが『人工市場』っていう解説書を書いたそうなので読んでみようかな。「まえがき」読んだだけだがけっこう面白そう。

とてもいい経験だったけど、移動、宿泊にかかった8万円に相当するほどためになったかと言われるとどうだろ。8万円あったら本30冊買えるもんなぁ・・・予め発表される分野を勉強していけば、発表内容もよく理解できてさらに有益になったかもな。あと、最終日までいて発表聞いてたんだけど、だんだん人が少なくなってきて最後の日は半分くらいしか残ってなくて気になった。なんか不公平だな・・・