人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

tic-tac-toe(三目並べ)を学習

するプログラムを書いた。参考は、Reinforcement Learning: An Introductionソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、

24勝77敗(0.24)
37勝64敗(0.37)
47勝54敗(0.47)
50勝51敗(0.50)
61勝40敗(0.61)
61勝40敗(0.61: 収束)

ただし、引き分けは敗れたことにする。

このように着実に勝率を伸ばしている。引き分けが敗に入れることを考えれば、61勝は多いだろう。ちなみに三目並べは強い人同士でやれば絶対に引き分けになるが、それでは0勝100敗にしかならない。そこで、相手にはランダムに手を打たせることにした。