SarsaとQ-learning
を実装して、「風が吹く格子世界問題(p.156)」に適用してみた。SarsaとQ-learningはどっちも強化学習の手法、両者はたった1箇所だけアルゴリズムに違いがある。しかし、この問題に対しては、ほとんど差がでなかった。下の本によると、「崖歩き問題(p.160)」でアルゴリズム差がでるらしい(実際に出た!Q-learningだと、崖のぎりぎりの近道を通る。Sarsaは崖から離れた遠回りだけど安全な道を通る。この差がどうして起きるかもアルゴリズムとにらめっこしてなんとかわかった。ページ数は「強化学習」という本のもの。
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12
- メディア: 単行本
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る