迷路問題 with 不完全知覚 - 人工知能に関する断創録

前に不完全知覚問題（2002/11/14）について言及した。9X9の迷路問題でエージェントの知覚を周囲8マスに制限して試してみたところ全く収束しなかった。前に書いた通り同じところを行ったり来たりしてしまう。ランダムな探査を5%の確率でしているため運良くゴールにつくことはあったが、90000ステップもかかっている。不完全知覚にすると普通のQ学習では全く歯が立たない。

不完全知覚には適格度トレースが有効とか思っていたけど、使っても全然だめだった。何か誤って理解していたかもしれない。

あと、前に作った倒立振子制御問題をQ学習を使う形に書き直したが、こっちも収束しなかった（ニューラルネットの時もそうだが、収束しなかったときどこにバグがあるのか非常にわかりにくい）こんな簡単な例題で苦戦してたら、大きな問題は全然できないかもしれないな・・・