人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



tic-tac-toe(三目並べ)を学習

するプログラムを書いた。参考は、Reinforcement Learning: An Introductionソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、

24勝77敗(0.24)
37勝64敗(0.37)
47勝54敗(0.47)
50勝51敗(0.50)
61勝40敗(0.61)
61勝40敗(0.61: 収束)

ただし、引き分けは敗れたことにする。

このように着実に勝率を伸ばしている。引き分けが敗に入れることを考えれば、61勝は多いだろう。ちなみに三目並べは強い人同士でやれば絶対に引き分けになるが、それでは0勝100敗にしかならない。そこで、相手にはランダムに手を打たせることにした。