2002-10-14から1日間の記事一覧
するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、 24勝77敗(0.24) 37勝64…
するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、 24勝77敗(0.24) 37勝64…