Tic-Tac-Toe
強化学習の例題として前は迷路をやった。今度は、Tic-Tac-Toe(○×ゲーム)をやってみる。無茶苦茶簡単のようだけど、状態空間は迷路に比べて桁違いに多いように思われる。オセロ、チェス、将棋に比べたらすごく小さいが。一から書くのは分からないところが多いので、Reinforcement Learning: An Introduction の ソースコード を参考にしてみる。見てみたら、LISPで書かれていた。もう一つはCと書いてあるけど何か違う(TCLか)。意味をつかんでCかJAVAに翻訳できるといい。ひとまず簡単な例でプログラムとしてどう表現するのか学ばなければならない。論文はプログラムのソースまで公開してくれないので細かいところがよくわからないし。