心の社会（Society of Mind） - 人工知能に関する断創録

作者: Marvin Minsky,マーヴィン・ミンスキー,安西祐一郎
出版社/メーカー: 産業図書
発売日: 1990/07
メディア: 単行本
購入: 8人クリック: 148回
この商品を含むブログ (48件) を見る

心の社会とは、ミンスキー氏が提案した概念。エージェントが多数集まり、互いに相互作用することによって心が生じるって考え方。この考え方を強化学習に取り入れた論文

Humphrys,M.: W-learning: A simple RL-based Society of Mind, the 3rd European Conference on Artificial Life, 1995.

を読んだ。

この論文は、「複数の競合する目標があるとき」にどのような行動を選択したらよいかを自動的に学習するアルゴリズムW-learningについて書かれている。一般的な強化学習が単一目標を単一エージェントが追求するのに対し、このアルゴリズムは複数目標を複数エージェントが追求する。下図のような感じ。

f:id:aidiary:20050814103713g:plain

1つの個体の中に別々の目標を持つ複数のエージェントが含まれているってイメージ。別々な目標を持つってのはQ値と報酬関数を各エージェントが個別に持ってることからわかる。各エージェントは「利己的」であり、自分にとって最適な行動をとろうとする。しかし、個体としては1つの行動しか取れないため、どれか1つを選ばないといけない。これは、「あれもしたい」「これもしたい」と思っていても、結局どれかを選択しなければならない「葛藤」の状況に似ている。この「葛藤」をコントロールするのが重み。重みが大きい行動ほど選択されやすくなる。W-learningは報酬をもとに重みを調節するって機能がついている。

パックマンを例に考えてみる。パックマンでは、

A1: 敵から逃げるエージェント
A2: えさを食べるエージェント

が考えられる。A1は敵に触れなければ報酬が入り、A2はえさを食べれば報酬が入る。A1とA2の出力する行動が一致してれば問題ない。しかし、敵が近づいてきたときに競合がおきる。A1は敵から逃げようとするが、A2は敵を無視してえさを食べ続けようとする。この状況では、A1を優先しないと敵に触れて負の報酬を得てしまうので、A1の重みを強めるように学習が進む（はず）。

心の社会って考え方は好きなので、この方法は面白いと思う。著者のページ（リンク切れ）に行けばこれ関係の論文がたくさんあったので読んでみたい。シミュレーションもそんなに難しくないのでやってみたい。エージェントの集合体「心」がどういう行動とるのか楽しみ。