Pongアプレット
Pongっていうボールを跳ね返すゲームを強化学習するアプレットを書いた。
これやっている途中に強化学習の問題点をが浮上してきた。その問題点とは、何を状態、行動、報酬にすべきかを決めるのが難しいこと。この問題は強化学習に限らず、他のアルゴリズムでも似たような問題がある。例えば、遺伝的アルゴリズムで染色体へ符号化する明確な方針がないってのと同じ問題だと思う。
Pongを作るにあたって、最初、ボールの速度ベクトル角度ではなく、ボールの位置を状態にしてたのだがこれはうまくいかなかった。なんで位置だとだめで速度ベクトルの角度だとうまくいくのかがよく分からない。直感ではどっちもできそうな気がするけど・・・
論文を読んでてもいきなり「状態、行動、報酬をこう決めます」って出てくるだけで、どうしてそうしたのかがよくわからない。「そうすればうまくいくから」ってだけかもしれないけど。状態、行動、報酬を決めるために背後では「人間が」厖大な試行錯誤してるのかな。