強化学習の応用事例 続き
強化学習がどんな応用に使われるか列挙してみる。
- セルラー通信システムの周波数帯の動的割り当て
- 在庫管理・生産ラインの最適化
- ジョブショップスケジューリング
- エレベータ群制御
- 電力網の分散学習制御
- インターネットバナーの最適化
- コンパイラの命令スケジューリング
- ルータ制御
- ゲーム(チェッカー、バックギャモン、オセロ)の学習
- 検索エージェント
- ロボットの歩行動作の獲得
- サッカーエージェントの学習
調べた範囲ではこんなところだった。結局、この発表で言いたかったのは
- 強化学習の応用とは何もロボットだけではない
- 様々な分野の問題(主に最適制御)に適用できる可能性がある
ということにした。強化学習というとエージェント、環境、行動、報酬のように書いて説明されることが多いので、なんとなくエージェントが動物や人間、ロボットのようなものを想像してしまいがちだと思う。しかし強化学習のエージェント、環境、行動、報酬のような枠組みは抽象化された概念でいろんな問題に適用できるんだということを強調した。全く異なる分野のまだ知られていない重要な問題に適用できる余地が残されているかもしれない。
いろいろ応用できることはわかったけど、実際にどれくらい効果があって意義があるのかは個々の分野を詳しく知らないのでよくわからなかった。そもそも学習してうまく行動するという枠組みが応用に適さないという意見も聞いたことがある。学習して得た行動は設計者が把握するのは難しく、エージェントの内部がブラックボックス化してしまうからだという。
最後に強化学習が応用上期待できるとされていることを3つあげる。
- 制御プログラミングの自動化・省力化ができる
- ハンドコーディングより優れた解法を発見する可能性がある
- 自律性と想定外の環境変化への適応が可能である
実現できればすばらしいと思う。