人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

2002-01-01から1年間の記事一覧

感情とは何か

Lazarus: Progress on a cognitive-motivational-relational theory of emotion, American Psychologist, 46, 819-834.では、感情を次のように分類している。もとは、上の論文だが、岡田さんの論文岡田:感情に左右される思考, Computer Today, pp.12-18, 20…

次元の呪い(Curse of dimensionality)

強化学習の一つの問題に次元の呪いがある。これは、状態数が指数関数的に増大する傾向のことを指す。ほとんどの問題では、状態数が大きすぎて、表形式(配列でQ[S][A]のように価値関数を表す方式)で管理することができなくなる。前にやった迷路はそんなに大…

擬似乱数

前から思っていたのだけれど、擬似乱数って不思議に思う。疑問点は、コンピュータの決定的なアルゴリズムでどうやって乱数(に似たもの)を生成するのかということ。決定的な手続きでランダムな数(といっても本当にランダムではないから擬似なのだけど)を…

想像と創造

ぼくは先日真実とも思われぬ架空なことどもが頭にうかんできたと申しましたが、それは決して架空ではないのです。誰かが想像しうることはすべて他の人々が将来実現できることなのです。ジュール・ヴェルヌ「父への手紙」 ジュール・ヴェルヌの代表作『八十日…

倒立振子制御問題

今度は、倒立振子制御問題を調べてみる。手の平に棒を立てて倒れないように調節する方法を強化学習で獲得させるのが目的。pole balancing problem のアプレットみたいな感じ。 参考 A.G.Barto, R.S.Sutton, C.W.Anderson: Neuronlike Adaptive Elements That…

tic-tac-toe(三目並べ)を学習

するプログラムを書いた。参考は、Reinforcement Learning: An Introduction のソースコード。ただし、一部の構文(主にfor文)が自分の環境では使えなかったので書き直した。100回ずつ勝負して学習させた勝率の推移を見てみると、 24勝77敗(0.24) 37勝64…

心と脳のしくみ なぜ人は喜び、そして悲しむのか

Newtonの特集を読んでみた。感情が物質から引き起こされるなんて不思議だ。そのうち自由に薬でコントロールできるようになるんだろうな(そんなものがなくてもヒトには理性があるが)。キレるしくみとか、アルコールを取ると感情が高まるしくみなんかも載っ…

AIとゲーム

人工知能の分野でゲームと言うと、チェス、将棋、碁みたいな割と高尚(?)なものばかり扱われているみたいだけど、TVゲームみたいなのにも使われている。『がんばれ森川君2号』ってのにはニューラルネットワーク。『アストロノーカ』っていう野菜を作るみた…

MSDN-AAの説明会

を聞きに行った。Visual Studio .NETが無料で使えるなんてとてもいい。前にVisual C++でWin32 SDKをちょっとかじったが複雑すぎて挫折してしまった。相当本腰いれてやらないと習得できそうにない。最初にやった言語がJavaということもあり、C++よりはJavaの…

AIBOと強化学習

C Magazine にロボットを制御するという特集があった。読んで見るとAIBOの動作を制御するOPEN-R SDKに関するものだった。その中に、AIBOの設計者のインタビューで、「AIBOは飼い主に慣れるのはどんな風にやっているんですか」みたいな質問があった。設計者に…

テスラーの定理

もし微分方程式を解く動物がいたら知能をもっていると見なされるだろうが、微分方程式を解くコンピュータは知能的とはいえない。 人工知能 その限界と挑戦(p.38) 全くその通りだ。しかし、一体何故なんだ。コンピュータにアルゴリズムを与えているのが人間…

認知科学の12のテーマ(Norman)

信念(Belief)、意識(Consciousness)、発達(Development)、感情(Emotion)、相互作用(Interaction)、言語(Language)、学習(Learning)、記憶(Memory)、知覚(Perception)、行為(Performance)、熟達(Skill)、思考(Thought)。強化学習に関…

Tic-Tac-Toe

強化学習の例題として前は迷路をやった。今度は、Tic-Tac-Toe(○×ゲーム)をやってみる。無茶苦茶簡単のようだけど、状態空間は迷路に比べて桁違いに多いように思われる。オセロ、チェス、将棋に比べたらすごく小さいが。一から書くのは分からないところが多…

Actor-Critic法

強化学習アルゴリズムのActor-Critic法を実装した。

論文の整理

人工知能学会誌の強化学習関連の論文をもう一度読み直して整理し始めた。前は、あまり注意せず読み飛ばしていたようなところで新たな発見がたくさんあった。例えば、Profit Sharingと適格度トレースは意味的に何か違いがあるのか?と最近疑問に思っていたの…

RoboCupへの強化学習の応用

RoboCupというのは、ロボットにサッカーをやらせるやつ。浅田さんの論文に、RoboCupへ強化学習をどう応用するかが載っていた。浅田、野田、俵積田、細田: 視覚に基づく強化学習によるロボットの行動獲得、日本ロボット学会誌、Vol.13、No.1、1995今まで迷路…

迷路問題アプレット

を書いた。 強化学習で迷路の最短経路を見つける(2005/1/21) 迷路問題は強化学習の性能を調べる一つの基本問題になっている。ここではあまり大きい迷路にすると、収束するまでうろうろする時間が長くなって見るに耐えないので、適当に小さくしておいた。コ…

関数近似

今までやってきた強化学習は状態数が離散でそんなに多くない場合だったけど、ロボットや実問題で使うときは、状態が連続、あるいは膨大になってしまい、状態を配列 V(s) や Q(s, a) で管理することはできなくなる。状態が連続値や膨大になっても強化学習を使…

適格度トレース

迷路問題で普通のSarsaアルゴリズムと適格度トレースという技法を使った Sarsa(λ) アルゴリズムで学習収束速度を比較した。数値をぱっと見たところ後者の方が桁違いに速いことが確認できた。ちょっと改良するだけでこんなに違いが出るなんてすごいと思った。…

人工稚能

グランドチャレンジ―人工知能の大いなる挑戦作者: 北野宏明出版社/メーカー: 共立出版発売日: 1993/08/15メディア: 単行本 クリック: 2回この商品を含むブログ (1件) を見る 「ある先生に云わせると《人工遅能》らしい。ワシが自分の研究を人に紹介するとき…

Machine Learning誌論文調査

Machine Learning誌の論文調査を続けた。強化学習関連は40本くらいある。だんだん理解できることが多くなってきたが、証明関係はさっぱり。論文によって式の表現が異なるのも混乱に拍車をかける(頼みの綱はSuttonさんの「強化学習」ただ一冊、それ以外に日…

棒倒し法

強化学習の例題環境で使う迷路は今まで0,1をファイルに書き込んで自分で作っていたが、大きいのがうまくできず、書き直すのもすごく面倒くさい。というわけで、自動的に迷路を作るアルゴリズムを探したところ、棒倒し法というのがあった。この方法を使えば、…

SarsaとQ-learning

を実装して、「風が吹く格子世界問題(p.156)」に適用してみた。SarsaとQ-learningはどっちも強化学習の手法、両者はたった1箇所だけアルゴリズムに違いがある。しかし、この問題に対しては、ほとんど差がでなかった。下の本によると、「崖歩き問題(p.160…

強化学習とは何か?

強化学習とは、感覚系と運動系の連係を用いた環境との相互作用からの学習を理論化したもの。感覚系によりまわりの環境、状況を知覚し、運動系によって行動する。そこから得られた情報を使って学習する。このような学習は私たちも通常行っていると思われる。…

Sarsa(λ)

強化学習の学習法の1つである Sarsa(λ) アルゴリズムを Introduction to Reinforcement learning(リンク切れ)に載っていたプログラムを参考に実装してみた。手元の本にはアルゴリズムが擬似コードで載っているだけなので、細かい実装法で分からないところ…

コンピュータはしろといわれたことしかできない

ゲーデル、エッシャー、バッハ―あるいは不思議の環 20周年記念版作者: ダグラス・R.ホフスタッター,Douglas R. Hofstadter,野崎昭弘,柳瀬尚紀,はやしはじめ出版社/メーカー: 白揚社発売日: 2005/10メディア: 単行本購入: 14人 クリック: 432回この商品を含む…

Machine Learning誌

の強化学習に関する論文を読み始めた。が、意味があまり(全然だったりして)よく分からない。何か日本の論文とは傾向がまるで違う。もっと、理論寄りで数式がだらだら出てくる。これが一流誌なのだろう。図書館に全巻ないので、上のサイトのPDFを使おうと思…

N本腕バンディット問題

をプログラムして実験してみた。簡単に言うと、目の前にN本レバーがあるとする。各レバーを引くとお金がもらえるのだが、レバーによってもらえる量にばらつきがある。このとき、どのような方法を取れば最も多くお金がもらえるかという問題。まずとっさに思い…

インターネットはグローバル・ブレイン

最近、いろいろ読んでると立花隆さんが結構出てくる。人工知能学会誌に対談が載っていたので、興味が出てきてそれ関係の著作を調べてみた。脳や人工知能関係の本もいろいろあったので読んでみよう。もっとも読みたかったのが立花さんの著作ではないが『立花…

研究室の合宿

だった。ディベートというのをやった。あるテーマについて賛成派と反対派に分かれて論理を競って相手を言い負かせばよいみたい。説明を聞いていた感じでは論理の訓練みたいで、議論して結論を出すことが目的ではないらしい。自分の考えと違っていても賛成(…