強化学習というアルゴリズムを用いて迷路の最短経路を学習するプログラムを作ってみます。迷路を抜ける方法は右手法とかいろいろありますが、ここではあえて学習を用います。強化学習は試行錯誤と報酬から学習するアルゴリズムです。ゴール地点には報酬が置…
また盤面評価です。前は石の数で評価していましたが、今回は石の場所で評価します。たとえば、角に石を打つのは有利だとか端に石を打つのが有利だとかをAIが考慮できるようにします。othello09.jar 各場所の価値 オセロを何回かやってると「4端や辺を取ると…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。