報酬の自律生成 - 人工知能に関する断創録

強化学習のサーベイを行ったが、その中で一番面白いと思った論文は、

山口: 強化信号のコミュニケーションに基づくマルチエージェント強化学習、情報処理学会研究報告知能と複雑系、 Vol.2000-ICS-121, pp.91-98, 2000

何が面白いかというと強化学習における報酬をエージェントの内から生成させるところ。従来の強化学習では報酬は外部から設計者が与えていた。その主な理由は、

学習目標や学習基準（報酬のことです）がエージェント内にあって操作可能である場合には、エージェントの得た学習結果を正当化するように、学習目標を変更するおそれがある。そのため、学習目標は、固定かつエージェントの外部にある必要があると考えられてきた。
p.95

でも、報酬が外部にあるというのは何か不自然だと報酬と感情（2002/11/28）に書いた。報酬が外部にあると嫌なことは、今のところ2つあると思う。

エージェントの自律性が損なわれる。
報酬設定の理論がないため、適切な報酬設定を設計者自身も行えない。

1つめは自律エージェント、ロボットを作るという目的においては重大な問題。この論文では心理学における内発的動機付けについて言及している。

心理学分野では、外部報酬は人間のやる気を高めると考えられてきた常識に対し，1970年代に人間において外的報酬は学習者の内発的動機付けを低下させる、という新たな知見が提案され、実験的に裏付けられている。ここで、内発的動機付けとは、人間におけるやる気、意欲などを現し、学習者自身が発見、形成していく自律的な学習目標のことである。

つまり、外部報酬だけに従っているエージェント（人間含む）は自律性がないってことだろう。この論文では内発的動機付けをマルチエージェント系でどう定義するかを議論しているが、シングルエージェントではどうすればよいのだろうか。ヒトを含む動物も内発的動機付けができている。その仕組みは何か。本能とか遺伝かも知れないけど興味深い。

ヒトや動物の行動にとって報酬とはどんなものがあるかよくわからないけど、もし本能とか遺伝とかだったとしたら、学習にどのようなバイアスをかければモデル化できるのだろう。