Deep Learning リンク集

乗るしかないこのビッグウェーブに Deep Learning（深層学習）に関連するまとめページとして使用する予定です。Deep Learningに関する記事・スライド・論文・動画・書籍へのリンクをまとめています。最新の研究動向は全然把握できていないので今後研究を進め…

2007-04-01

Reward Punish

強化学習

働くみんなのモティベーション論 (NTT出版ライブラリーレゾナント)作者: 金井壽宏出版社/メーカー: NTT出版発売日: 2006/10/13メディア: 単行本（ソフトカバー）購入: 4人クリック: 110回この商品を含むブログ (26件) を見るモティベーション（動機づけ）を…

2005-12-18

Lin's Dynamic World

強化学習

昔いつか実装しようと思ってそのままにしていた強化学習の面白いタスクがあった。それが L. Lin という人の提案したDynamic Worldだ。L. Lin: Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching, Machine Learning, V…

2005-12-07

メタ学習：脳の汎用的な問題解決能力の基盤の理解にむけて

認知科学強化学習

メタ学習：脳の汎用的な問題解決能力の基盤の理解にむけて（リンク切れ）という認知科学会の講演会が先週土曜日に産総研であった。AI学会のMLに流れてきたのが直前の金曜日で気づかず聴きに行けなかったのが残念だ。Miyazawa's Weblogさんの感想（リンク切れ…

2005-11-04

三人寄れば文殊の知恵

強化学習

三人寄れば文殊の知恵愚かな者も三人集まって相談すれば文殊菩薩のようなよい知恵が出るものだ。広辞苑これは人工知能の分野でも当てはまるのか。それぞれ別の知識や経験を学習したエージェントが互いに相互作用することで学習が加速するだろうか。たとえ…

2005-09-24

愛情と目標

強化学習認知科学

Minsky氏の講演会が近々あるのでそれに備えて、『Emotion Machine』を読んでいる。 Marvin Minsky氏来日！！！（2005/9/9） Part II の Attachments and Goals に面白いことが書いてあった。前に報酬の学習（2003/02/18）で何を報酬とするか（つまりやりた…

2005-09-21

初期誘導学習

強化学習ロボティクス

瀬名秀明さんの『デカルトの密室』に面白い記述があった。ぼくはこのガレージで初めて起動して以来、ほとんどの時間を自律モードでユウスケたちと一緒に過ごしてきた。でもぼくの身体は自律制御だけで動くわけじゃない。ユウスケに操縦されて、その通りに作…

2005-09-08

知識発達ロボティクス

脳科学強化学習ロボティクス

FIT2005に行ってきた。「脳科学と情報科学はどう融合していくのか」というイベント企画を聴いていたのだけどとても興味深かった。やはり強化学習をやっていたので浅田さん（阪大）の「知識発達ロボティクスによる心と脳の理解に向けて」が一番面白かった。従…

2005-07-17

強化学習の出番だ

強化学習

うちの犬がすんごく暑そうにしているのでひやひやマットを買ってきてあげた。アルミの板で上に乗ってるとひんやりして涼しい犬用のマット。なのに怖がって上に乗ろうとしない・・・ジャーキーをマットの上に置くとマットに乗らないようによけて食べようとす…

2005-07-06

内発的動機づけ

認知科学強化学習

発達の本質（2005/7/5）の続き。何かを求めて外に向かおうとする力（＝自発性）はいったい何なのか？「何かを求めて外に向かおうとする力」とは何なのか。この素朴な疑問への一般解が「内発的動機づけ」である。内発的動機づけとは、それ自体が内的報酬とな…

2005-07-05

発達の本質

認知科学強化学習

2005年7月号の人工知能学会誌（pp.500-501）に面白い記事があったので紹介したい。著者は小嶋秀樹さん。AAAI Spring Symposium: Developmental Roboticsという会議の会議報告を書いている。Developmental Roboticsというのは訳すと発達ロボティクスとなる。…

2005-01-21

強化学習で迷路の最短経路を見つける

Javagame 強化学習

強化学習というアルゴリズムを用いて迷路の最短経路を学習するプログラムを作ってみます。迷路を抜ける方法は右手法とかいろいろありますが、ここではあえて学習を用います。強化学習は試行錯誤と報酬から学習するアルゴリズムです。ゴール地点には報酬が置…

2004-03-16

今後の予定

強化学習

はじめての学会発表（2004/3/15）の続き。非同期更新の考察。非同期ってよくないのかな・・・ちゃんと収束するかとかも調べる。収束性の保証。収束保証の数学的証明は読んでもよくわからない。数学的に保証はできなくてもより多くのタスク、大規模かつ実用…

2004-03-15

はじめての学会発表

強化学習

に行ってきた。強化学習アルゴリズムの並列化に関するテーマで初の学会発表だった。今回の研究会のテーマは「社会システムにおける知能」とのことだったが、「一般」で発表させてもらった。校内で発表するのとは違いかなり緊張した。コメントとQ&Aのまとめ。…

2004-03-09

情報処理学会全国大会

ロボティクス強化学習

に行ってみた。情報処理学会は学部4年生のとき会員だったけどもう脱会してしまった（人工知能学会は今でも入っているけど）。非会員でも（学生なら）無料で入れるなんて太っ腹だ。論文がダウンロードできないのはけちくさいけど。2つ聴いた。1つ目はATR 萩田…

2004-03-03

Pongアプレット

強化学習

Pongっていうボールを跳ね返すゲームを強化学習するアプレットを書いた。pong_learning.jarこれやっている途中に強化学習の問題点をが浮上してきた。その問題点とは、何を状態、行動、報酬にすべきかを決めるのが難しいこと。この問題は強化学習に限らず、他…

2004-02-21

倒立振子制御問題＋人による教示

強化学習

のアプレットを作ってみた。強化学習で人とエージェントの相互作用を入れると面白い予感。「教える」と「学ぶ」ってのは今回やったようなイメージが自然な気がする。そのうち、できなかったテトリスも教示を使ってうまくやらせてみたいな。pole_balance_teac…

2004-02-20

人の経験とエージェントの経験の融合

強化学習

強化学習は知識なし学習（そうじゃないという人もいるが）。学習過程で人の手助けは借りず、環境との相互作用のみから試行錯誤をとおして学習していく。しかし、その代償として学習速度を犠牲にしなければならない。学習が遅いことは大きな問題点としてあげ…

2004-01-31

強化学習におけるヒューリスティクス

強化学習

強化学習は結局最適解の探索問題にすぎないように思われる（こういうとつまんない感じがするけど）。各状態でどの行動を取ればよいか探索して見つけるのが強化学習の目的だから。「探索」というと人工知能の基礎分野の1つだが、前にそこ勉強してたときヒュー…

2004-01-23

研究発表会

強化学習

だった。並列化による強化学習の高速化というテーマで発表した。今、強化学習をテーマにしてるけど何でだっけかな。過去の研究履歴見ると機械学習関連の本（2002/8/1）にいきなり「強化学習」って言葉が出てくる。数ある学習アルゴリズムの中で強化学習を選…

2004-01-16

報酬をエージェントの学習過程で与えるのが難しい理由

強化学習

強化学習における人とエージェントの相互作用（2004/1/14）の続き。Isbellの論文を元にまとめておく。適切な状態空間の選択これは、Cobotの例に限らず強化学習一般に言えると思う。適切に状態を設定しないと学習が収束しないこともある。複数の報酬源と矛…

2004-01-14

強化学習における人とエージェントの相互作用

強化学習

強化学習における人間とエージェントのコミュニケーション（2003/12/31）の続き。人とエージェントの相互作用（HAI:Human Agent Interaction）を取り入れた強化学習に関する研究を調べた。相互作用といってもいろいろある。多いのは、エージェントの学習過程…

2003-12-31

反応形成（Shaping）

強化学習認知科学

に関する面白いムービーを見つけた（QuickTimeが必要）。ベルをつつく行動のシェイピング絵の弁別訓練すごくおりこうな鳩だ。実際の動物で強化学習しているの始めてみたので感動した。ここでは、このムービーでやられている反応形成についてメモっとく。…

2003-12-31

強化学習における人間とエージェントのコミュニケーション

強化学習

強化学習しているエージェントに人間が介入できるような仕組みがないか探してみた。つまり、Human Agent Interaction（2003/12/28）に述べたように強化学習にHAIの仕組みを入れたようなもの。今のところ、Advice-Taking RL、反応形成（shaping）、対話的進化…