tic-tac-toe(三目並べ)を学習
するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、
24勝77敗(0.24) 37勝64敗(0.37) 47勝54敗(0.47) 50勝51敗(0.50) 61勝40敗(0.61) 61勝40敗(0.61: 収束)
ただし、引き分けは敗れたことにする。
このように着実に勝率を伸ばしている。引き分けが敗に入れることを考えれば、61勝は多いだろう。ちなみに三目並べは強い人同士でやれば絶対に引き分けになるが、それでは0勝100敗にしかならない。そこで、相手にはランダムに手を打たせることにした。