tic-tac-toe（三目並べ）を学習 - 人工知能に関する断創録

するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文（主にfor文）が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、

24勝77敗（0.24）
37勝64敗（0.37）
47勝54敗（0.47）
50勝51敗（0.50）
61勝40敗（0.61）
61勝40敗（0.61: 収束）

ただし、引き分けは敗れたことにする。

このように着実に勝率を伸ばしている。引き分けが敗に入れることを考えれば、61勝は多いだろう。ちなみに三目並べは強い人同士でやれば絶対に引き分けになるが、それでは0勝100敗にしかならない。そこで、相手にはランダムに手を打たせることにした。