読者です 読者をやめる 読者になる 読者になる

人工知能に関する断創録

人工知能、認知科学、心理学、ロボティクス、生物学などに興味を持っています。このブログでは人工知能のさまざまな分野について調査したことをまとめています。最近は、機械学習、Deep Learning、Kerasに関する記事が多いです。



音源定位

ロボティクス 音声認識

AIチャレンジ研究会(SIG-Challenge-0216)を聴講しに行った。テーマは「ロボット聴覚・ロボット対話やCASA(音環境理解、聴覚による情景分析)」。音声認識の細かい話はほとんど知らないのであまり分からなかった。ただ、特許庁の人もいっていたが、AIBOが音声認識するようになってから急激に音声認識研究が増えたというのはうなずけた。エンターテインメントで使うにはやっぱり声に反応してほしいだろうし。講演で多かったのは人とロボットのコミュニケーションをうまくするためにロボットに何を組み込めばよいかという話だったと思う。自分としては「コミュニケーションをどううまく行うかより、コミュニケーションを通して何をどう学習できるか」の方に興味があるので、作りこんでその範囲内で限られたことをやるというのはすこし興味が薄れる(その範囲でも問題は山積みらしいが)。

最も面白かったのは、「ロボット対話における自然な新規語彙の獲得」ってのと「視聴覚定位能力を同時に獲得するロボットヘッドの構築」という講演。この2つはコミュニケーション(相互作用)を通しての学習に重点を置いていた。

最初のは、ロボットと対話するうちに知らない語彙が出てきたとき、それを自動獲得する方法。予めロボットに巨大辞書を用意しておいても、固有名詞に対応するには限界がある。例えば、「私の名前はXXXです。」って話かけてもXXXは普通辞書に載っていない。この言葉をロボットの辞書に自動登録して音声合成で発話できるようにするというのが目的。これは可能性を感じる。相互作用からの自然言語の獲得の話に通じるから。固有名詞だけではなく単語も文法も対話から獲得できれば面白いけどまだ実用的じゃないのは当然か。ヒトの脳に文法中枢があるという記事がこの前新聞に載っていたが、そういうのも解明されれば可能性はあるのだろうか。

もう一つのは「音源定位」すなわち、音がしたときにどっちの方向で鳴っているか特定する能力を学習によって獲得させるというもの。前に生物学の授業を取ってたときに「メンフクロウの音源定位」について知った。メンフクロウってのは暗闇の中でもねずみがすこし動いた音からその位置を割り出して飛び掛る能力があるらしい。そして、音源定位機構は生物学的に完全に解明されているということだった。そのとき、これはロボットに使えるなとか、音から位置を割り出すなんて音を出さないものには全く意味がないわけで実用性はないなとか考えていた。しかし、今日講演を聴いていて「音源定位」の重要性を知った。例えば、ロボットに対して「おい」と呼びかけたとき、ロボットがその方向を向くには「音源定位」が必要。ヒトにとっても基本的な能力である。それを予め組み込むのではなくて、学習(Kohonenの自己組織化マップらしいが詳細は分からなかった)によって獲得させるという点が面白かった。聴講者の反応からすると汎用にはかなり難しいみたいだが。

研究会の雰囲気も何となくわかった。この会だけかもしれないけど、結構小規模なんだな。