人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

2002-09-01から1ヶ月間の記事一覧

Actor-Critic法

強化学習アルゴリズムのActor-Critic法を実装した。

論文の整理

人工知能学会誌の強化学習関連の論文をもう一度読み直して整理し始めた。前は、あまり注意せず読み飛ばしていたようなところで新たな発見がたくさんあった。例えば、Profit Sharingと適格度トレースは意味的に何か違いがあるのか?と最近疑問に思っていたの…

RoboCupへの強化学習の応用

RoboCupというのは、ロボットにサッカーをやらせるやつ。浅田さんの論文に、RoboCupへ強化学習をどう応用するかが載っていた。浅田、野田、俵積田、細田: 視覚に基づく強化学習によるロボットの行動獲得、日本ロボット学会誌、Vol.13、No.1、1995今まで迷路…

迷路問題アプレット

を書いた。 強化学習で迷路の最短経路を見つける(2005/1/21) 迷路問題は強化学習の性能を調べる一つの基本問題になっている。ここではあまり大きい迷路にすると、収束するまでうろうろする時間が長くなって見るに耐えないので、適当に小さくしておいた。コ…

関数近似

今までやってきた強化学習は状態数が離散でそんなに多くない場合だったけど、ロボットや実問題で使うときは、状態が連続、あるいは膨大になってしまい、状態を配列 V(s) や Q(s, a) で管理することはできなくなる。状態が連続値や膨大になっても強化学習を使…

適格度トレース

迷路問題で普通のSarsaアルゴリズムと適格度トレースという技法を使った Sarsa(λ) アルゴリズムで学習収束速度を比較した。数値をぱっと見たところ後者の方が桁違いに速いことが確認できた。ちょっと改良するだけでこんなに違いが出るなんてすごいと思った。…

人工稚能

グランドチャレンジ―人工知能の大いなる挑戦作者: 北野宏明出版社/メーカー: 共立出版発売日: 1993/08/15メディア: 単行本 クリック: 2回この商品を含むブログ (1件) を見る 「ある先生に云わせると《人工遅能》らしい。ワシが自分の研究を人に紹介するとき…

Machine Learning誌論文調査

Machine Learning誌の論文調査を続けた。強化学習関連は40本くらいある。だんだん理解できることが多くなってきたが、証明関係はさっぱり。論文によって式の表現が異なるのも混乱に拍車をかける(頼みの綱はSuttonさんの「強化学習」ただ一冊、それ以外に日…

棒倒し法

強化学習の例題環境で使う迷路は今まで0,1をファイルに書き込んで自分で作っていたが、大きいのがうまくできず、書き直すのもすごく面倒くさい。というわけで、自動的に迷路を作るアルゴリズムを探したところ、棒倒し法というのがあった。この方法を使えば、…

SarsaとQ-learning

を実装して、「風が吹く格子世界問題(p.156)」に適用してみた。SarsaとQ-learningはどっちも強化学習の手法、両者はたった1箇所だけアルゴリズムに違いがある。しかし、この問題に対しては、ほとんど差がでなかった。下の本によると、「崖歩き問題(p.160…

強化学習とは何か?

強化学習とは、感覚系と運動系の連係を用いた環境との相互作用からの学習を理論化したもの。感覚系によりまわりの環境、状況を知覚し、運動系によって行動する。そこから得られた情報を使って学習する。このような学習は私たちも通常行っていると思われる。…

Sarsa(λ)

強化学習の学習法の1つである Sarsa(λ) アルゴリズムを Introduction to Reinforcement learning(リンク切れ)に載っていたプログラムを参考に実装してみた。手元の本にはアルゴリズムが擬似コードで載っているだけなので、細かい実装法で分からないところ…

コンピュータはしろといわれたことしかできない

ゲーデル、エッシャー、バッハ―あるいは不思議の環 20周年記念版作者: ダグラス・R.ホフスタッター,Douglas R. Hofstadter,野崎昭弘,柳瀬尚紀,はやしはじめ出版社/メーカー: 白揚社発売日: 2005/10メディア: 単行本購入: 14人 クリック: 432回この商品を含む…

Machine Learning誌

の強化学習に関する論文を読み始めた。が、意味があまり(全然だったりして)よく分からない。何か日本の論文とは傾向がまるで違う。もっと、理論寄りで数式がだらだら出てくる。これが一流誌なのだろう。図書館に全巻ないので、上のサイトのPDFを使おうと思…

N本腕バンディット問題

をプログラムして実験してみた。簡単に言うと、目の前にN本レバーがあるとする。各レバーを引くとお金がもらえるのだが、レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金がもらえるかという問題。まずとっさに思い…

インターネットはグローバル・ブレイン

最近、いろいろ読んでると立花隆さんが結構出てくる。人工知能学会誌に対談が載っていたので、興味が出てきてそれ関係の著作を調べてみた。脳や人工知能関係の本もいろいろあったので読んでみよう。もっとも読みたかったのが立花さんの著作ではないが『立花…

研究室の合宿

だった。ディベートというのをやった。あるテーマについて賛成派と反対派に分かれて論理を競って相手を言い負かせばよいみたい。説明を聞いていた感じでは論理の訓練みたいで、議論して結論を出すことが目的ではないらしい。自分の考えと違っていても賛成(…