2002-10-14から1日間の記事一覧

2002-10-14

tic-tac-toe（三目並べ）を学習

強化学習

するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文（主にfor文）が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、 24勝77敗（0.24） 37勝64…

人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています（更新停止: 2019年12月31日）

2002-10-14から1日間の記事一覧

tic-tac-toe（三目並べ）を学習