強化学習における人とエージェントの相互作用

強化学習における人間とエージェントのコミュニケーション（2003/12/31）の続き。

人とエージェントの相互作用（HAI:Human Agent Interaction）を取り入れた強化学習に関する研究を調べた。

相互作用といってもいろいろある。多いのは、エージェントの学習過程で人間が正しい行動を指示するタイプ。指示の仕方や指示の取り入れ方にいろいろ種類があり、学習の高速化が主目的になっている。後で書く。

今日は、人間が行動を指示するんではなく、報酬を与えるタイプの強化学習を扱った論文

C. L. Isbell et al.: A Social Reinforcement Learning Agent, Proceedings of the Fifth International Conference on Autonomous Agents, 2001.

を読んだ。この種の研究は少ない（と感じている）し、結構いい考えだと密かに思っていたがよく探せばやっぱりある。

一般的に、報酬は学習の前に人が設定し、かつ学習過程を通して変化しない（静的）のが普通。だけど、この論文ではエージェントの学習中に「人」が報酬を与え、しかも学習過程を通して変化する。

扱っているのは、LambdaMOOというチャット環境で動くCobot（リンク切れ）というエージェント。Cobotは、LambdaMOOという環境の中で他のユーザとコミュニケーションを行える。インターネットからいろんな話題を選んできて話したり（出力したり？）、他のユーザを紹介したり、コメントを出すといった行動を取るらしい。人工無能みたいなものか？LambdaMOO中の「人」ユーザは、Cobotとやりとりし、行動がよかったら報酬、悪かったら罰を与えてCobotを訓練できる。訓練を続けると、Cobotはそのユーザに適応し、適切な行動を出せるようになる。

簡単そうに感じるが、強化学習で扱うのは難しいらしい。難しい理由は今度書く。

人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています（更新停止: 2019年12月31日）

強化学習における人とエージェントの相互作用