共有メモリ型並列計算機上での強化学習

（注）この結果は間違いでした。共有メモリ型並列計算機上での強化学習（2003/7/6）を参照。

f:id:aidiary:20050813194828g:plain

学習曲線を描いてみた。タスクは197x197の迷路問題。状態数は約40000、行動数は上、下、右、左の4つ。よってQテーブルは40000x4の二次元配列で表した。縦軸はスタート地点からゴール地点にたどり着くまで何歩かかるかを表している。横軸のエピソード数はスタートから初めてゴールにつくというのを何回繰り返したかを表す（収束するまでにかかるエピソード数が少ないほど学習が高速）。

Qテーブルを同時更新するエージェントの数が多いほど学習の収束が早まっている（1 agentと2 agentの差がかなりあるけどこれはなぜだ？）。Q学習では収束に必要なエピソード数と実行時間はほぼ比例する（？）だろうから並列計算機上で走らせれば実行時間も減少するはず。

人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています（更新停止: 2019年12月31日）

共有メモリ型並列計算機上での強化学習