人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

強化学習の応用事例

今年の合宿では強化学習がどんな応用に使われていて、どのようなことが期待できるのかを簡単に発表した。そのまとめ。強化学習の特徴は次のようにまとめられる*1

設計者が「何をすべきか」をエージェントに報酬という形で指示しておけば「どのように実現するか」はエージェントが学習によって自動的に獲得する。

オセロの戦略を学習するエージェントを例にとる。設計者は「オセロに勝て」とエージェントに報酬という形で指示する。具体的には、ゲーム終了時に勝っていたら報酬を与え、負けていたら与えなければよい。重要なのは設計者は報酬を設定するだけで「どのようにすれば勝てるか」は全く指示しないところ。エージェントはゲームを何回も繰り返し行い、報酬を得るにはどうすればよいか(ゲームで勝つにはどうすればよいか)を自動的に学習していく。

他にAcrobat問題を例にとる。前にアプレット(2003/6/15)を作った。この場合、するべきことは脚を棒より上にあげることである。だから、脚を棒より上にあげた時点で報酬を与えている。しかし、どうやれば脚が棒より上に上げられるかは全く指示していない!行動のプリミティブ(左に力を加える、右に力を加える)は与えているが、それをどういう順番で行えば脚を効率よく上げられるかは学習によって獲得されている。

このような強化学習の能力がどんな問題に応用できるのかは今度まとめる。

*1:木村, 宮崎, 小林: 強化学習システムの設計指針, 計測と制御, Vol.38, No.10, 1999