読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



Deep Learning リンク集

乗るしかないこのビッグウェーブに Deep Learning(深層学習)に関連するまとめページとして使用する予定です。Deep Learningに関する記事・スライド・論文・動画・書籍へのリンクをまとめています。最新の研究動向は全然把握できていないので今後研究を進め…

Reward Punish

働くみんなのモティベーション論 (NTT出版ライブラリーレゾナント)作者: 金井壽宏出版社/メーカー: NTT出版発売日: 2006/10/13メディア: 単行本(ソフトカバー)購入: 4人 クリック: 110回この商品を含むブログ (26件) を見るモティベーション(動機づけ)を…

Lin's Dynamic World

昔いつか実装しようと思ってそのままにしていた強化学習の面白いタスクがあった。それが L. Lin という人の提案したDynamic Worldだ。L. Lin: Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching, Machine Learning, V…

メタ学習:脳の汎用的な問題解決能力の基盤の理解にむけて

メタ学習:脳の汎用的な問題解決能力の基盤の理解にむけて(リンク切れ)という認知科学会の講演会が先週土曜日に産総研であった。AI学会のMLに流れてきたのが直前の金曜日で気づかず聴きに行けなかったのが残念だ。Miyazawa's Weblogさんの感想(リンク切れ…

三人寄れば文殊の知恵

三人寄れば文殊の知恵 愚かな者も三人集まって相談すれば文殊菩薩のようなよい知恵が出るものだ。広辞苑 これは人工知能の分野でも当てはまるのか。それぞれ別の知識や経験を学習したエージェントが互いに相互作用することで学習が加速するだろうか。たとえ…

愛情と目標

Minsky氏の講演会が近々あるのでそれに備えて、『Emotion Machine』を読んでいる。 Marvin Minsky氏来日!!!(2005/9/9) Part II の Attachments and Goals に面白いことが書いてあった。前に報酬の学習(2003/02/18)で 何を報酬とするか(つまりやりた…

初期誘導学習

瀬名秀明さんの『デカルトの密室』に面白い記述があった。 ぼくはこのガレージで初めて起動して以来、ほとんどの時間を自律モードでユウスケたちと一緒に過ごしてきた。でもぼくの身体は自律制御だけで動くわけじゃない。ユウスケに操縦されて、その通りに作…

知識発達ロボティクス

FIT2005に行ってきた。「脳科学と情報科学はどう融合していくのか」というイベント企画を聴いていたのだけどとても興味深かった。やはり強化学習をやっていたので浅田さん(阪大)の「知識発達ロボティクスによる心と脳の理解に向けて」が一番面白かった。従…

強化学習の出番だ

うちの犬がすんごく暑そうにしているのでひやひやマットを買ってきてあげた。アルミの板で上に乗ってるとひんやりして涼しい犬用のマット。なのに怖がって上に乗ろうとしない・・・ジャーキーをマットの上に置くとマットに乗らないようによけて食べようとす…

内発的動機づけ

発達の本質(2005/7/5)の続き。何かを求めて外に向かおうとする力(=自発性)はいったい何なのか? 「何かを求めて外に向かおうとする力」とは何なのか。この素朴な疑問への一般解が「内発的動機づけ」である。内発的動機づけとは、それ自体が内的報酬とな…

発達の本質

2005年7月号の人工知能学会誌(pp.500-501)に面白い記事があったので紹介したい。著者は小嶋秀樹さん。AAAI Spring Symposium: Developmental Roboticsという会議の会議報告を書いている。Developmental Roboticsというのは訳すと発達ロボティクスとなる。…

強化学習で迷路の最短経路を見つける

強化学習というアルゴリズムを用いて迷路の最短経路を学習するプログラムを作ってみます。迷路を抜ける方法は右手法とかいろいろありますが、ここではあえて学習を用います。強化学習は試行錯誤と報酬から学習するアルゴリズムです。ゴール地点には報酬が置…

今後の予定

はじめての学会発表(2004/3/15)の続き。 非同期更新の考察。非同期ってよくないのかな・・・ちゃんと収束するかとかも調べる。 収束性の保証。収束保証の数学的証明は読んでもよくわからない。数学的に保証はできなくてもより多くのタスク、大規模かつ実用…

はじめての学会発表

に行ってきた。強化学習アルゴリズムの並列化に関するテーマで初の学会発表だった。今回の研究会のテーマは「社会システムにおける知能」とのことだったが、「一般」で発表させてもらった。校内で発表するのとは違いかなり緊張した。コメントとQ&Aのまとめ。…

情報処理学会全国大会

に行ってみた。情報処理学会は学部4年生のとき会員だったけどもう脱会してしまった(人工知能学会は今でも入っているけど)。非会員でも(学生なら)無料で入れるなんて太っ腹だ。論文がダウンロードできないのはけちくさいけど。2つ聴いた。1つ目はATR 萩田…

Pongアプレット

Pongっていうボールを跳ね返すゲームを強化学習するアプレットを書いた。pong_learning.jarこれやっている途中に強化学習の問題点をが浮上してきた。その問題点とは、何を状態、行動、報酬にすべきかを決めるのが難しいこと。この問題は強化学習に限らず、他…

倒立振子制御問題+人による教示

のアプレットを作ってみた。強化学習で人とエージェントの相互作用を入れると面白い予感。「教える」と「学ぶ」ってのは今回やったようなイメージが自然な気がする。そのうち、できなかったテトリスも教示を使ってうまくやらせてみたいな。pole_balance_teac…

人の経験とエージェントの経験の融合

強化学習は知識なし学習(そうじゃないという人もいるが)。学習過程で人の手助けは借りず、環境との相互作用のみから試行錯誤をとおして学習していく。しかし、その代償として学習速度を犠牲にしなければならない。学習が遅いことは大きな問題点としてあげ…

強化学習におけるヒューリスティクス

強化学習は結局最適解の探索問題にすぎないように思われる(こういうとつまんない感じがするけど)。各状態でどの行動を取ればよいか探索して見つけるのが強化学習の目的だから。「探索」というと人工知能の基礎分野の1つだが、前にそこ勉強してたときヒュー…

研究発表会

だった。並列化による強化学習の高速化というテーマで発表した。今、強化学習をテーマにしてるけど何でだっけかな。過去の研究履歴見ると機械学習関連の本(2002/8/1)にいきなり「強化学習」って言葉が出てくる。数ある学習アルゴリズムの中で強化学習を選…

報酬をエージェントの学習過程で与えるのが難しい理由

強化学習における人とエージェントの相互作用(2004/1/14)の続き。Isbellの論文を元にまとめておく。 適切な状態空間の選択 これは、Cobotの例に限らず強化学習一般に言えると思う。適切に状態を設定しないと学習が収束しないこともある。 複数の報酬源と矛…

強化学習における人とエージェントの相互作用

強化学習における人間とエージェントのコミュニケーション(2003/12/31)の続き。人とエージェントの相互作用(HAI:Human Agent Interaction)を取り入れた強化学習に関する研究を調べた。相互作用といってもいろいろある。多いのは、エージェントの学習過程…

反応形成(Shaping)

に関する面白いムービーを見つけた(QuickTimeが必要)。 ベルをつつく行動のシェイピング 絵の弁別訓練 すごくおりこうな鳩だ。実際の動物で強化学習しているの始めてみたので感動した。ここでは、このムービーでやられている反応形成についてメモっとく。…

強化学習における人間とエージェントのコミュニケーション

強化学習しているエージェントに人間が介入できるような仕組みがないか探してみた。つまり、Human Agent Interaction(2003/12/28)に述べたように強化学習にHAIの仕組みを入れたようなもの。今のところ、Advice-Taking RL、反応形成(shaping)、対話的進化…

Human Agent Interaction

ヒューマンインターフェースの授業を通してたまたま見つけた論文 山田誠二, 角所考: 適応としてのHAI, 人工知能学会誌, Vol.17, No.6, pp.658-664, 2002. を読んだ。HAIというのは「人間とエージェントの相互作用、コミュニケーションを通して人間とエージェ…

心の社会(Society of Mind)

心の社会作者: Marvin Minsky,マーヴィン・ミンスキー,安西祐一郎出版社/メーカー: 産業図書発売日: 1990/07メディア: 単行本購入: 8人 クリック: 148回この商品を含むブログ (48件) を見る心の社会とは、ミンスキー氏が提案した概念。エージェントが多数集…

脳に学んだ情報処理手法の開発に向けて

脳に学んだ情報処理手法の開発に向けて(リンク切れ)っていうシンポジウムを聞きに行った。セッション2の強化学習のところが一番よくわかって面白かった。他は・・・あんまり理解できなかった。なんかミクロ(神経細胞レベル)とマクロ(脳の器官モデル)、…

共有メモリ型並列強化学習 持ち直した・・・

強化学習を共有メモリ型の並列計算機に実装して、高速化しようとしていた。強化学習の並列化 崖っぷち(2003/10/9)で崖っぷちに追いこまれ、速くするのは絶望的な雰囲気だったが、少しだけ持ち直した。指導教授からLinuxマシン(8CPU)ではなく、Solarisマ…

強化学習の並列化 崖っぷち

共有メモリ型の方も、分散メモリ型の方もどっちもまずい。エージェントを増やすことによる収束エピソードの短縮より、オーバヘッドの方がずっと大きい。共有の方は、キャッシュミスの頻発が原因で、分散の方は各PEの負荷が異なることによる同期待ちが原因の…

テトリスの学習 続き

テトリスの学習(2003/9/30)の続き。テトリスくらい楽だろうと思っていたが、想像以上に難しい(まあいつものことだが)。強化学習を実装して、実行したまま1日放置してみたが、全く変化なしだった。へたくそのまま。2,800,000エピソードまで学習させたの…

テトリスの学習

強化学習を使ったおもちゃとして、今回はテトリスをやってみようと思う。テトリスの場合、迷路より状態行動空間が大きくなるため状態の一般化がかかせない。つまり、状態行動価値の表現をテーブルではなく、線形関数やニューラルネットにする必要がある。テ…

PCクラスタ上での強化学習 探査率の影響

MPIで一番簡単な方式を実装した。 127X127の迷路問題 簡単のためマスター1つ、スレーブ1つで構成 スレーブからマスターへの行動価値テーブルの送信は2000エピソードごとに行う マスターは送られてきたテーブルを結合する テーブルの結合は更新回数で重みづけ…

強化学習の応用事例 続き

強化学習がどんな応用に使われるか列挙してみる。 セルラー通信システムの周波数帯の動的割り当て 在庫管理・生産ラインの最適化 ジョブショップスケジューリング エレベータ群制御 電力網の分散学習制御 インターネットバナーの最適化 コンパイラの命令スケ…

強化学習の応用事例

今年の合宿では強化学習がどんな応用に使われていて、どのようなことが期待できるのかを簡単に発表した。そのまとめ。強化学習の特徴は次のようにまとめられる*1。 設計者が「何をすべきか」をエージェントに報酬という形で指示しておけば「どのように実現す…

PCクラスタ上での強化学習 Qテーブルの結合

共有メモリ型の方もまだ問題があるが、分散メモリ型の方を少し考えた。クラスタ上で並列に強化学習を行う場合に最も問題となるのは、別々に学習したQテーブルをうまく結合できるかという点だと思う。というわけで実験してみた。結果が次のグラフ。PC1とPC2で…

報酬の例2

Skinnerは、特定のクラスの条件性強化子に対して「般性強化子」という用語を使った。おそらく般性強化子の最もよい例はお金であろう。この強化子が、社会で働いている人の行動を維持していることは明白である。もし雇用者が、もう一切給料を払わないと言えば…

報酬の例

強化学習においての報酬とは現実の何にあたるのかという問題は少し気になる。例えば、強化学習と報酬(2002/11/20)とか報酬の自律生成(2003/2/18)で少し考えていた。強化学習を最適化アルゴリズムの一種と考えればそんなことどうでもよい問題(報酬はタス…

共有メモリ型並列計算機上での強化学習 学習時間が変だ・・・

共有メモリ型並列計算機上での強化学習 複数CPU(2003/8/1)の続き。前の結果を見ると、1スレッドと2スレッドの間は10倍遅くなっているが3スレッドにすると速くなっている。何か怪しかったけどさらにスレッドを増やして測定してみた。学習曲線は学習収束まで…

共有メモリ型並列計算機上での強化学習 複数CPU

共有メモリ型並列計算機上での強化学習(2003/7/23)の続き。同期を取っていたせいで実行速度が遅いと思っていたので、同期を全く取らないように修正し、収束するまでの時間を測定した。結果、1スレッド 6秒、2スレッド 約50秒、3スレッド 約24秒・・・何な…

共有メモリ型並列計算機上での強化学習

共有メモリ型並列計算機上での強化学習(2003/7/6)で間違いに気づいて同期を使うことになった。苦労してやっと実装したが、無茶苦茶遅くなった。並列計算しようと思ってスレッドを作るたび、実行速度が落ちるのが目に見えて分かる。どうやら同期に使ったmut…

共有メモリ型並列計算機上での強化学習

共有メモリ型並列計算機上での強化学習(2003/6/18)で1エージェントの収束に比べて、2エージェントの収束がやけに早いことが疑問だったが原因がわかった。各エージェントはスレッドで同じ関数を実行していたのだけど、エージェント1のスレッドだけに画面へ…

Omni OpenMP

OpenMPは共有メモリ型並列計算のライブラリ。これについていろいろ調べてたところ、フリーのOpenMPコンパイラであるOmni OpenMPというのを知った。早速、Linuxにインストールしようとしてあれこれやって時間をつぶしたが結局できなかった。また明日やるか・…

N本腕バンディット問題

をプログラムしてみた。N本腕バンディット問題(2002/9/6)でも実験したことあったけどコード、結果は載せなかったので再度取り上げる。N本腕バンディット問題を簡単に説明する。目の前にN本レバーがあるとし、各レバーを引くとお金(報酬)がもらえる。レバ…

共有メモリ型並列計算機上での強化学習 学習曲線

どのくらい高速化できるのか調べてみた。結果は次のグラフのようになった。10以上に増やしてもこの問題(197x197の迷路問題)ではこれ以上速くならなかった。他に、各エージェントの初期位置をランダムに配置するようにして実験してみた。こうすれば状態空間…

共有メモリ型並列計算機上での強化学習

(注)この結果は間違いでした。共有メモリ型並列計算機上での強化学習(2003/7/6)を参照。学習曲線を描いてみた。タスクは197x197の迷路問題。状態数は約40000、行動数は上、下、右、左の4つ。よってQテーブルは40000x4の二次元配列で表した。縦軸はスター…

共有メモリ型並列計算機上での強化学習

今日は、共有メモリ型並列計算機で強化学習を実装する前段階としてスレッドを使って逐次計算機上で実装してみた。構想しているのは下の図のような感じ。共有メモリ上にQテーブルがある。異なるプロセッサ(PE:Processing Elementと表記)上で動いているエー…

Acrobatアプレット

を書いた。acrobat.jar鉄棒の体操選手が脚を高く振り上げるのをシミュレーションしたようなもの。今回は参考ソースがなかったので前に作った倒立振子を参考に苦労して作った。特に運動方程式が複雑でかなり疲れた。棒の動きを見て、機械学習はすごいと改めて…

倒立振子制御問題

倒立振子アプレット(2002/10/26)は、Actor-Criticを使っていたけど今回はテーブル型Q学習を使った。グラフィックは面倒なのでなし。Q学習を使ったので探査率 epsilon の影響がかなり大きくなった。探査率を大きくしてランダムな行動を取らせる確率を高くす…

強化学習の並列化

最近、面白いと思うネタがあまりない。今日は強化学習に関する論文について整理しておくことにする(書いててもあまり面白くないが)。 A. M. Printista: A parallel implementation of Q-Learning based on communication with cache (PDF) 自分がやろうと…

Neuro-Dynamic Programming

Neuro-Dynamic Programming (Optimization and Neural Computation Series, 3)作者: Dimitri P. Bertsekas,John N. Tsitsiklis出版社/メーカー: Athena Scientific発売日: 1996/10/01メディア: ハードカバー クリック: 3回この商品を含むブログ (2件) を見る…