人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

強化学習

Deep Learning リンク集

乗るしかないこのビッグウェーブに Deep Learning(深層学習)に関連するまとめページとして使用する予定です。Deep Learningに関する記事・スライド・論文・動画・書籍へのリンクをまとめています。最新の研究動向は全然把握できていないので今後研究を進め…

Reward Punish

働くみんなのモティベーション論 (NTT出版ライブラリーレゾナント)作者: 金井壽宏出版社/メーカー: NTT出版発売日: 2006/10/13メディア: 単行本(ソフトカバー)購入: 4人 クリック: 110回この商品を含むブログ (26件) を見るモティベーション(動機づけ)を…

Lin's Dynamic World

昔いつか実装しようと思ってそのままにしていた強化学習の面白いタスクがあった。それが L. Lin という人の提案したDynamic Worldだ。L. Lin: Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching, Machine Learning, V…

メタ学習:脳の汎用的な問題解決能力の基盤の理解にむけて

メタ学習:脳の汎用的な問題解決能力の基盤の理解にむけて(リンク切れ)という認知科学会の講演会が先週土曜日に産総研であった。AI学会のMLに流れてきたのが直前の金曜日で気づかず聴きに行けなかったのが残念だ。Miyazawa's Weblogさんの感想(リンク切れ…

三人寄れば文殊の知恵

三人寄れば文殊の知恵 愚かな者も三人集まって相談すれば文殊菩薩のようなよい知恵が出るものだ。広辞苑 これは人工知能の分野でも当てはまるのか。それぞれ別の知識や経験を学習したエージェントが互いに相互作用することで学習が加速するだろうか。たとえ…

愛情と目標

Minsky氏の講演会が近々あるのでそれに備えて、『Emotion Machine』を読んでいる。 Marvin Minsky氏来日!!!(2005/9/9) Part II の Attachments and Goals に面白いことが書いてあった。前に報酬の学習(2003/02/18)で 何を報酬とするか(つまりやりた…

初期誘導学習

瀬名秀明さんの『デカルトの密室』に面白い記述があった。 ぼくはこのガレージで初めて起動して以来、ほとんどの時間を自律モードでユウスケたちと一緒に過ごしてきた。でもぼくの身体は自律制御だけで動くわけじゃない。ユウスケに操縦されて、その通りに作…

知識発達ロボティクス

FIT2005に行ってきた。「脳科学と情報科学はどう融合していくのか」というイベント企画を聴いていたのだけどとても興味深かった。やはり強化学習をやっていたので浅田さん(阪大)の「知識発達ロボティクスによる心と脳の理解に向けて」が一番面白かった。従…

強化学習の出番だ

うちの犬がすんごく暑そうにしているのでひやひやマットを買ってきてあげた。アルミの板で上に乗ってるとひんやりして涼しい犬用のマット。なのに怖がって上に乗ろうとしない・・・ジャーキーをマットの上に置くとマットに乗らないようによけて食べようとす…

内発的動機づけ

発達の本質(2005/7/5)の続き。何かを求めて外に向かおうとする力(=自発性)はいったい何なのか? 「何かを求めて外に向かおうとする力」とは何なのか。この素朴な疑問への一般解が「内発的動機づけ」である。内発的動機づけとは、それ自体が内的報酬とな…

発達の本質

2005年7月号の人工知能学会誌(pp.500-501)に面白い記事があったので紹介したい。著者は小嶋秀樹さん。AAAI Spring Symposium: Developmental Roboticsという会議の会議報告を書いている。Developmental Roboticsというのは訳すと発達ロボティクスとなる。…

強化学習で迷路の最短経路を見つける

強化学習というアルゴリズムを用いて迷路の最短経路を学習するプログラムを作ってみます。迷路を抜ける方法は右手法とかいろいろありますが、ここではあえて学習を用います。強化学習は試行錯誤と報酬から学習するアルゴリズムです。ゴール地点には報酬が置…

今後の予定

はじめての学会発表(2004/3/15)の続き。 非同期更新の考察。非同期ってよくないのかな・・・ちゃんと収束するかとかも調べる。 収束性の保証。収束保証の数学的証明は読んでもよくわからない。数学的に保証はできなくてもより多くのタスク、大規模かつ実用…

はじめての学会発表

に行ってきた。強化学習アルゴリズムの並列化に関するテーマで初の学会発表だった。今回の研究会のテーマは「社会システムにおける知能」とのことだったが、「一般」で発表させてもらった。校内で発表するのとは違いかなり緊張した。コメントとQ&Aのまとめ。…

情報処理学会全国大会

に行ってみた。情報処理学会は学部4年生のとき会員だったけどもう脱会してしまった(人工知能学会は今でも入っているけど)。非会員でも(学生なら)無料で入れるなんて太っ腹だ。論文がダウンロードできないのはけちくさいけど。2つ聴いた。1つ目はATR 萩田…

Pongアプレット

Pongっていうボールを跳ね返すゲームを強化学習するアプレットを書いた。pong_learning.jarこれやっている途中に強化学習の問題点をが浮上してきた。その問題点とは、何を状態、行動、報酬にすべきかを決めるのが難しいこと。この問題は強化学習に限らず、他…

倒立振子制御問題+人による教示

のアプレットを作ってみた。強化学習で人とエージェントの相互作用を入れると面白い予感。「教える」と「学ぶ」ってのは今回やったようなイメージが自然な気がする。そのうち、できなかったテトリスも教示を使ってうまくやらせてみたいな。pole_balance_teac…

人の経験とエージェントの経験の融合

強化学習は知識なし学習(そうじゃないという人もいるが)。学習過程で人の手助けは借りず、環境との相互作用のみから試行錯誤をとおして学習していく。しかし、その代償として学習速度を犠牲にしなければならない。学習が遅いことは大きな問題点としてあげ…

強化学習におけるヒューリスティクス

強化学習は結局最適解の探索問題にすぎないように思われる(こういうとつまんない感じがするけど)。各状態でどの行動を取ればよいか探索して見つけるのが強化学習の目的だから。「探索」というと人工知能の基礎分野の1つだが、前にそこ勉強してたときヒュー…

研究発表会

だった。並列化による強化学習の高速化というテーマで発表した。今、強化学習をテーマにしてるけど何でだっけかな。過去の研究履歴見ると機械学習関連の本(2002/8/1)にいきなり「強化学習」って言葉が出てくる。数ある学習アルゴリズムの中で強化学習を選…

報酬をエージェントの学習過程で与えるのが難しい理由

強化学習における人とエージェントの相互作用(2004/1/14)の続き。Isbellの論文を元にまとめておく。 適切な状態空間の選択 これは、Cobotの例に限らず強化学習一般に言えると思う。適切に状態を設定しないと学習が収束しないこともある。 複数の報酬源と矛…

強化学習における人とエージェントの相互作用

強化学習における人間とエージェントのコミュニケーション(2003/12/31)の続き。人とエージェントの相互作用(HAI:Human Agent Interaction)を取り入れた強化学習に関する研究を調べた。相互作用といってもいろいろある。多いのは、エージェントの学習過程…

反応形成(Shaping)

に関する面白いムービーを見つけた(QuickTimeが必要)。 ベルをつつく行動のシェイピング 絵の弁別訓練 すごくおりこうな鳩だ。実際の動物で強化学習しているの始めてみたので感動した。ここでは、このムービーでやられている反応形成についてメモっとく。…

強化学習における人間とエージェントのコミュニケーション

強化学習しているエージェントに人間が介入できるような仕組みがないか探してみた。つまり、Human Agent Interaction(2003/12/28)に述べたように強化学習にHAIの仕組みを入れたようなもの。今のところ、Advice-Taking RL、反応形成(shaping)、対話的進化…

Human Agent Interaction

ヒューマンインターフェースの授業を通してたまたま見つけた論文 山田誠二, 角所考: 適応としてのHAI, 人工知能学会誌, Vol.17, No.6, pp.658-664, 2002. を読んだ。HAIというのは「人間とエージェントの相互作用、コミュニケーションを通して人間とエージェ…

心の社会(Society of Mind)

心の社会作者: Marvin Minsky,マーヴィン・ミンスキー,安西祐一郎出版社/メーカー: 産業図書発売日: 1990/07メディア: 単行本購入: 8人 クリック: 148回この商品を含むブログ (48件) を見る心の社会とは、ミンスキー氏が提案した概念。エージェントが多数集…

脳に学んだ情報処理手法の開発に向けて

脳に学んだ情報処理手法の開発に向けて(リンク切れ)っていうシンポジウムを聞きに行った。セッション2の強化学習のところが一番よくわかって面白かった。他は・・・あんまり理解できなかった。なんかミクロ(神経細胞レベル)とマクロ(脳の器官モデル)、…

共有メモリ型並列強化学習 持ち直した・・・

強化学習を共有メモリ型の並列計算機に実装して、高速化しようとしていた。強化学習の並列化 崖っぷち(2003/10/9)で崖っぷちに追いこまれ、速くするのは絶望的な雰囲気だったが、少しだけ持ち直した。指導教授からLinuxマシン(8CPU)ではなく、Solarisマ…

強化学習の並列化 崖っぷち

共有メモリ型の方も、分散メモリ型の方もどっちもまずい。エージェントを増やすことによる収束エピソードの短縮より、オーバヘッドの方がずっと大きい。共有の方は、キャッシュミスの頻発が原因で、分散の方は各PEの負荷が異なることによる同期待ちが原因の…

テトリスの学習 続き

テトリスの学習(2003/9/30)の続き。テトリスくらい楽だろうと思っていたが、想像以上に難しい(まあいつものことだが)。強化学習を実装して、実行したまま1日放置してみたが、全く変化なしだった。へたくそのまま。2,800,000エピソードまで学習させたの…