2003-09-01から1ヶ月間の記事一覧
強化学習を使ったおもちゃとして、今回はテトリスをやってみようと思う。テトリスの場合、迷路より状態行動空間が大きくなるため状態の一般化がかかせない。つまり、状態行動価値の表現をテーブルではなく、線形関数やニューラルネットにする必要がある。テ…
このような動物の来歴話を集めてみると、そこには、おのずからひとつの一般的な考えが提示される。それは前世紀なら、さしずめ教訓とか道徳といわれた種類のものであろう。もちろん人はそれぞれの考えに従って、その好みにあった教訓を見出すであろう。だが…
MPIで一番簡単な方式を実装した。 127X127の迷路問題 簡単のためマスター1つ、スレーブ1つで構成 スレーブからマスターへの行動価値テーブルの送信は2000エピソードごとに行う マスターは送られてきたテーブルを結合する テーブルの結合は更新回数で重みづけ…
強化学習がどんな応用に使われるか列挙してみる。 セルラー通信システムの周波数帯の動的割り当て 在庫管理・生産ラインの最適化 ジョブショップスケジューリング エレベータ群制御 電力網の分散学習制御 インターネットバナーの最適化 コンパイラの命令スケ…
今年の合宿では強化学習がどんな応用に使われていて、どのようなことが期待できるのかを簡単に発表した。そのまとめ。強化学習の特徴は次のようにまとめられる*1。 設計者が「何をすべきか」をエージェントに報酬という形で指示しておけば「どのように実現す…
人生の教科書[ロボットと生きる]作者: 藤原和博出版社/メーカー: 筑摩書房発売日: 2003/07/26メディア: 単行本 クリック: 3回この商品を含むブログ (5件) を見るという本にロボットも自閉症児も同じ「弱さ」を持っているというタイトルで面白い記事(著者は…