迷路問題 with 不完全知覚
前に不完全知覚問題(2002/11/14)について言及した。9X9の迷路問題でエージェントの知覚を周囲8マスに制限して試してみたところ全く収束しなかった。前に書いた通り同じところを行ったり来たりしてしまう。ランダムな探査を5%の確率でしているため運良くゴールにつくことはあったが、90000ステップもかかっている。不完全知覚にすると普通のQ学習では全く歯が立たない。
不完全知覚には適格度トレースが有効とか思っていたけど、使っても全然だめだった。何か誤って理解していたかもしれない。
あと、前に作った倒立振子制御問題をQ学習を使う形に書き直したが、こっちも収束しなかった(ニューラルネットの時もそうだが、収束しなかったときどこにバグがあるのか非常にわかりにくい)こんな簡単な例題で苦戦してたら、大きな問題は全然できないかもしれないな・・・