テトリスの学習

強化学習

強化学習を使ったおもちゃとして、今回はテトリスをやってみようと思う。テトリスの場合、迷路より状態行動空間が大きくなるため状態の一般化がかかせない。つまり、状態行動価値の表現をテーブルではなく、線形関数やニューラルネットにする必要がある。テ…

シートン動物記

生物学

このような動物の来歴話を集めてみると、そこには、おのずからひとつの一般的な考えが提示される。それは前世紀なら、さしずめ教訓とか道徳といわれた種類のものであろう。もちろん人はそれぞれの考えに従って、その好みにあった教訓を見出すであろう。だが…

強化学習

MPIで一番簡単な方式を実装した。 127X127の迷路問題簡単のためマスター1つ、スレーブ1つで構成スレーブからマスターへの行動価値テーブルの送信は2000エピソードごとに行うマスターは送られてきたテーブルを結合するテーブルの結合は更新回数で重みづけ…

強化学習

強化学習がどんな応用に使われるか列挙してみる。セルラー通信システムの周波数帯の動的割り当て在庫管理・生産ラインの最適化ジョブショップスケジューリングエレベータ群制御電力網の分散学習制御インターネットバナーの最適化コンパイラの命令スケ…

強化学習

今年の合宿では強化学習がどんな応用に使われていて、どのようなことが期待できるのかを簡単に発表した。そのまとめ。強化学習の特徴は次のようにまとめられる*1。設計者が「何をすべきか」をエージェントに報酬という形で指示しておけば「どのように実現す…

ロボティクス

人生の教科書[ロボットと生きる]作者: 藤原和博出版社/メーカー: 筑摩書房発売日: 2003/07/26メディア: 単行本クリック: 3回この商品を含むブログ (5件) を見るという本にロボットも自閉症児も同じ「弱さ」を持っているというタイトルで面白い記事（著者は…