人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

大脳基底核と強化学習

の関係について調べたのでざっとまとめておく。

大脳基底核は昔から行動に関係しているということは分かっていたが、詳しい機能は分かっていなかったらしい(実際、1980年あたりの脳の本を読んでも謎と書いてあった)。しかし、最近の研究でドーパミンを報酬とし、その報酬を予測をもとに目的指向的な行動を組み立てる役割が分かってきた*1。ドーパミンは大脳基底核に強く作用する。ちなみに、ドーパミンというのは快楽物質。動物の場合は生存と繁殖に関わること、例えば、水、餌、交尾行動などでドーパミンが増え、それを報酬とする強化学習と見ることができる。ヒトはそれだけじゃなくドーパミンが出る別の報酬の形態もあるとは思う。ヒトは本能だけで動かないから。

上にあげた大脳基底核の特徴、報酬をもとにする学習、報酬の予測(=価値の評価)、目的指向的というのはぴったり強化学習の特徴と一致する。中でも報酬の予測と言うのは、TD学習をはじめとする強化学習アルゴリズムの中心となる考え方である。

TD学習では報酬の予測値と実際に得られた報酬の差(TD誤差という)をもとに学習する。例えば、いま s(t) という状態にいて、「思いがけず」次の状態 s(t+1) で報酬が得られたとする。すると「あっ、 s(t+1) で報酬がもらえるんだ。じゃあ、1つ前の s(t) も報酬はもらえないけどいい状態だな(TD誤差が正=期待)」と普通は予想して学習する。そして何度も続けると、TD誤差が0(=報酬をもらえるのは当然になる)になり、学習が収束する。その後、報酬をもらうことを期待しているのを裏切って s(t+1) で報酬を与えないと普通はがっかりして(TD誤差が負=失望)、「ちぇっ、やっぱり s(t) というのはあまりよくない状態だ」と学習する。このように報酬の予測値と実際に得られる報酬の差(TD誤差)を利用して学習するのがTD学習をはじめとする強化学習の本質(だと思う)。

Schultzという人はサルを使って次のような実験を行った*2。サルは、ランプが点灯してその下にあるレバーを押すと1滴のジュースがもらえる。学習の最初は何をしたらジュースがもらえるのか予想できないので、ジュースをもらったときだけドーパミンが出てくる。しかし、学習が進むとランプとレバーとジュースの関係を予測し、ランプがついただけでドーパミンが出るようになり(TD誤差が正=期待している)、実際にジュースをもらったときは、ドーパミンが出なくなる(TD誤差が0=ジュースは当然出ると思っている)。そして、ジュースを期待しているのにあげないとドーパミンが減る(TD誤差が負=失望)。

このようにドーパミンは強化学習のTD誤差と対応がついている。すなわち、ドーパミンが強く作用する大脳基底核は強化学習と同じメカニズムではないかという仮説が立てられた。

また、さらに進んで銅谷賢治さんは、強化学習のパラメータと脳の機能を関係づける仮説を出している*3。強化学習には次の4つのパラメータがある。

TD誤差δ
報酬の予測値と実際に得られた報酬との差
割引率γ
どのくらい未来の報酬まで考慮するか
逆温度β
行動選択において搾取(目先の利益を追求して行動選択)するか探査(ランダムに行動選択)するか
学習率α
報酬予測を一度にどの程度変更するか

強化学習においてこれらのパラメータは人手で調節しなければならないが(あっ、TD誤差だけは違う)、脳の場合、タスクに合わせて自動的に行っている。つまり、脳にはこれらのパラメータを自動調節する「何か」があるはずだと銅谷さんは考えたらしい。そして、

TD誤差δ ⇔ ドーパミン系
上に書いたサルの実験。
割引率γ ⇔ セロトニン系
セロトニン系が低下すると、うつ病や衝撃的な行動といった目先の苦難や誘惑にとらわれ、長期的な展望をもとに行動できなくなる。これは、γが0に近いと目先の利益を考慮して行動を選択し、γが1に近いほど長期的な報酬を考慮する強化学習のアルゴリズムと一致する。
逆温度β ⇔ ノルアドレナリン系
青斑核のノルアドレナリン系の活動は緊迫したり、痛み刺激などのストレスを伴った状態で高く、リラックスした状態では低い。これは、βが高い緊急事態では現時点で考えられる最良の行動を取り(=搾取)、βが低い状態では行動にランダムさを持たせる(=探査)という強化学習の行動選択法と一致する。
学習率α ⇔ アセチルコリン系
アセチルコリンは、海馬などの記憶に関するゲートを開いたり閉じたりする働きがあることが示唆されている。また、アセチルコリンの低下はアルツハイマー病の記憶障害の原因であることが示されている。これは、学習を調節したり、学習の重み付けを行うαの働き(αが大きいと急速に学習が進み、αが小さいと学習が遅い)と一致する。

という対応を考えたらしい。ちょっとこじつけに見えるところもある(βとか)が、非常に驚いた。こんな見事に対応すると強化学習の脳における重要性がひしひしと感じられる。脳のことは興味があってもほとんど知らないので暇ができたら何か本を読んで概要をつかんでおきたい。最新の脳科学の研究成果を部外者にもわかりやすく説明した本があればいいけれど。

*1:銅谷: 強化学習の計算論, 医学の歩み, Vol.202, No.3, pp.175-178, 2002

*2:Schulz,W. et al.: A neural substrate of prediction and reward, Science, 275, pp.1593-1599, 1997

*3:銅谷: 行動学習系のメタパラメタ制御と神経修飾物質, 数理科学, Vol.38, pp.19-24, 2000