初期誘導学習 - 人工知能に関する断創録

瀬名秀明さんの『デカルトの密室』に面白い記述があった。

ぼくはこのガレージで初めて起動して以来、ほとんどの時間を自律モードでユウスケたちと一緒に過ごしてきた。でもぼくの身体は自律制御だけで動くわけじゃない。ユウスケに操縦されて、その通りに作業することもできる。ユウスケはヘッドセットを被り、ゴーグルをつけ、グローブを填めて、ぼくの見た映像を通してぼくを動かすのだ。そしてぼくは自分が操られるのを感じながら、その動作をしっかりと記憶し、学んでゆく。
（中略）
操られているときでも、ぼくの考えや思いが消えてなくなるわけではない。だからこれは文字通りの操縦ではなくて、自律モードとの中間段階だ。
（中略）
ユウスケはぼくのパラメータを調節して、同じように少しずつ操縦の度合いを弱めてゆく。ユウスケの動きがそっとぼくの身体から抜け出してゆく。最終的に完全な自律モードになったとき、ぼくの身体がうまく動けば、ぼくはその動作を学習したことになる。
pp.212-213

このような人間との相互作用から学習する手法に非常に興味がある。以前、強化学習を勉強しているときに学習初期の学習の遅さをカバーするために同じ手法を考えていた。

このような考え方は画期的だと思ったのだが、昔からよく知られているらしい。産業用ロボットの動作の学習法として、実際に腕を動かして動作を教え込む方法が使われていたようだ。また、ソニーのQRIOはユーザが腕や足を動かして動作を学習できる仕組みが備わっていると聞いたこともある。

強化学習でこの手法が使えるととっても楽しそうだと思って簡単なプロトタイプを作って実験してみた

倒立振子制御の教示学習 - 強化学習に教示を導入。教示モードでは左右キーで台車を操作できます。エージェントにお手本を見せましょう。Modeボタンを押してエージェントの自律モードに切り替えると前よりずっとうまくできるようになってます。赤ちゃんエージェントにお手本を見せよう。

学習の初期段階でユーザが行動を指示してあげることでエージェントがうまく行動できるようになる。学習を高速化するとともに人間の意図を伝える良い方法だと考える。もっと拡張すれば面白い研究テーマになりそう。

この小説に出てくるように人間と機械が経験を共有できる方法が理想的だと思う。