人工知能に関する断創録

このブログでは人工知能のさまざまな分野について調査したことをまとめています(更新停止: 2019年12月31日)

PyTorch (1) リンク集

今年の目標(2018/1/1)で宣言したとおり今年はPyTorchを使えるようにしていこうと思ってます!

f:id:aidiary:20180128195256p:plain

ここにPyTorchのリソースをまとめる予定です。一気に追加すると収拾つかないため内容を吟味してから追加してこうと思います。外部リンク集の2つのサイトはPyTorchに関するチュートリアルや論文の再現実装など大量のリソースがまとまっていてとてもおすすめです。あと公式のチュートリアルはとてもしっかり書かれていて勉強になります。こちらもおすすめ。

外部リンク集

チュートリアル

ビデオチュートリアル

GAN

その他

Speech and Audio @ NIPS2017

PFN主催のNIPS2017読み会において Speech and Audio というテーマで発表してきました。

★初SlideShare★

今回は複数の論文をまとめたテーマ発表を入れると聴いたのでどのテーマにするか悩みました。最初は、コンピュータビジョン関連の面白い論文がいくつかあったのでそのテーマにしようと検討していたのですが、音声のキャリアが一番長く、かつMachine Learning for Audio Signal Processingワークショップに参加したこともあり、結局のところ「音」をテーマに選びました。本会議には音メインの研究が非常に少ない(音の研究はINTERSPEECH、ICASSP、ISMIRが中心)のでワークショップ中心です。

音関連の研究をまとめるにあたって下のような表を作って整理しました。

f:id:aidiary:20180126195954p:plain

音に関する研究を音声(Speech)、環境音などの一般的な音(Audio)、音楽(Music)に分け、さらにタスクを認識、生成、検出、その他に分けて整理しました。音の研究というと 音声認識音声合成 だけと思われるかもしれませんが、他にもいろいろな研究テーマやタスクがあることがわかります。

この表はまだまだ追記途中です。こんなタスクが抜けてるというのがあったらぜひコメントください。

個別論文は

を選びました。

Deep Voice2はBaiduの音声合成アーキテクチャに関する論文です。たぶん、参加者で音声合成を知ってる人はほとんどいないだろうと思ったのでなるべく基礎的なところから話しました。

主に取り上げた音声合成アーキテクチャはBaiduの Deep Voice とGoogleの Tacotron です。Deep Voiceはすでに3まで出ているし、比較実験で言及されているTacotronもすでに2まで出てるのですでに時代遅れという・・・まあarXivの時代では仕方がないですね。Tacotronの論文は始めて読んだのですが、実装のイメージがわかないので @r9y9 さんのPyTorch実装 など参考にさせていただきました。

Imaginary Soundscape は画像と音声のマルチモーダルに関する論文です。マルチモーダルなDeep Learningに興味があったのとアプリケーションとしてとても面白い!と思ったので取り上げました。Google Street Viewに音声をつけちゃおう という野心的な試みです。リンク先のデモも面白いのでぜひ試してみてください。著者の一人の徳井さん*1 がmediumで記事も書かれてます。

Imaginary Soundscapeは音を生成しているわけではなく、特徴量が似ている音を検索して再生しているのですが、音を生成する研究も出てきています。こちらも今度紹介したいですね。

Twitterを見てるとVQ-VAEはどこいった?というつぶやきがありました。WaveNetの著者の論文ということは気づいていたのですが、発表直前で指摘されて理解するのに時間がかかりそうだったので放置してました(^^;) というか、今回のNIPS2017ではCapsule Networkとともに有名な論文だったみたいなので誰かが取り上げるんじゃないかと思ってました。結局、誰も取り上げなかったけど(^^;) 興味はあるので読んでみようと思います!

実際のところ音声関連の研究開発をすでに7年ほどやっていて、音声はもういいやという感じだったのですが、けっこう知らないタスクやこれから面白そうな研究テーマを見つけたので少し興味がわいてきました。今後もちょくちょく実装などを紹介していきたいと思います。

*1:徳井さんのサイト Create with AI はAIと表現に関する論文・データセットなどがまとまっておりとても面白いです。こちらもおすすめ。

2018年の目標

明けましておめでとうございます。ブログ書くの6ヶ月ぶりでずいぶんご無沙汰していますがちゃんと生きています (^^;

2017年の振り返り

2017年はいろいろなことがありました。

  • 3月に運転免許証をゲットしました。そろそろ1年経つので初心者マーク取れそうです(^o^)v

  • 3月に某電機メーカを退職して、4月1日付けで株式会社DeNAに転職しました。機械学習・人工知能の研究開発をしているAIシステム部で働いています。データマイニング+Web@東京を主催している@hamadakoichi さんやコンピュータビジョン研究者の @yu4u さんと同じ部署です。転職活動するまでDeNAについてほとんど知らなかったので自分でも本当に意外です。自分の選択とは言え、人生何が起こるか本当にわかりません。

  • 転職したのは、Deep Learningの可能性の探求に本気で取り組みたいと思ったからです。前職では音声合成の研究開発を7年ほどやってきたのですが、今後の事業展開を考えるとその希望は叶いそうもありませんでした。今まではメインの仕事でDeep Learningの研究開発ができなかったので帰宅後とか休日とか闇研とかで細々と取り組んでいたのですが、今は仕事でもプライベートでもDeep Learning漬けの毎日が送れているのでとても楽しく充実しています!

  • 国際会議の参加支援制度を利用してNIPS2017に聴講参加させていただきました。Deep Learningの最先端研究に触れられたのとアメリカへ始めて行けたことでとても感動しました!報告内容はPFN主催のNIPS2017読み会での発表を予定しています。終わったらこのブログにもまとめようと思ってます。

  • プライベートでは絶望を味わったけど何とか立ち直れました😱ブログをしばらく休んでたのはそのせいです。来年はよい年になるとよいなあ。

2018年の目標

  • 最低1日1本は論文を読みたい(まずはawesome-deep-learning-papersの読破から!)

  • Deep Learningリンク集(2015/4/29)がすでに陳腐化しているので更新したい。

  • 特に興味を持っている生成系マルチモーダル(言語・音声・画像・制御)系の研究を引き続き深耕(2017/2/14)。自分はどちらかというと音声の研究開発歴が長いのですが、言語・音声・画像・制御のすべてに興味があります。今年はここらへんの実装や解説をまとめていこうと思います。しばらく物書きから遠ざかってたので異様に書きたい気分。

  • KerasPyTorchを使いこなしたい。2年前からKeras一筋(2016/3/28)だったのですが、最近はPyTorchに浮気気味です(笑)Kerasは (1) 使うの簡単 (2) 利用者数が圧倒的多く情報も豊富 (3) TensorFlowに統合されたことで今後もますます使われていくと予想されるのでやはり外せません。PyTorchはDeep LearningのMOOCとして有名なfast.aiで採用されたころから使い始めました。最先端の研究成果はPyTorchで実装されることが多いのでこちらも使えるようにしていきたい。一方、職場ではTensorFlowやChainerをメインに使う人も多いので最低限コードが読めるようにしておきたいかも。

最後に宣伝ですが、DeNA TechCon 2018(2018年2月7日)でDeNAの人工知能に関する取り組みについて発表予定です。自分も登壇予定なので興味のある方はぜひご参加ください!

転職で環境が大きく変わったこともあり、今年からはあまり引きこもらずに勉強会・講演会・展示会などいろいろ積極的に参加していこうかと思ってます。

今後ともよろしくお願いします。