人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

Tic-Tac-Toe

強化学習の例題として前は迷路をやった。今度は、Tic-Tac-Toe(○×ゲーム)をやってみる。無茶苦茶簡単のようだけど、状態空間は迷路に比べて桁違いに多いように思われる。オセロ、チェス、将棋に比べたらすごく小さいが。一から書くのは分からないところが多いので、Reinforcement Learning: An Introductionソースコード を参考にしてみる。見てみたら、LISPで書かれていた。もう一つはCと書いてあるけど何か違う(TCLか)。意味をつかんでCかJAVAに翻訳できるといい。ひとまず簡単な例でプログラムとしてどう表現するのか学ばなければならない。論文はプログラムのソースまで公開してくれないので細かいところがよくわからないし。