読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



共有メモリ型並列計算機上での強化学習

強化学習

(注)この結果は間違いでした。共有メモリ型並列計算機上での強化学習(2003/7/6)を参照。

f:id:aidiary:20050813194828g:plain

学習曲線を描いてみた。タスクは197x197の迷路問題。状態数は約40000、行動数は上、下、右、左の4つ。よってQテーブルは40000x4の二次元配列で表した。縦軸はスタート地点からゴール地点にたどり着くまで何歩かかるかを表している。横軸のエピソード数はスタートから初めてゴールにつくというのを何回繰り返したかを表す(収束するまでにかかるエピソード数が少ないほど学習が高速)。

Qテーブルを同時更新するエージェントの数が多いほど学習の収束が早まっている(1 agentと2 agentの差がかなりあるけどこれはなぜだ?)。Q学習では収束に必要なエピソード数と実行時間はほぼ比例する(?)だろうから並列計算機上で走らせれば実行時間も減少するはず。