音声合成
PFN主催のNIPS2017読み会において Speech and Audio というテーマで発表してきました。 NIPS2017報告 SPEECH & AUDIO from Koichiro Mori ★初SlideShare★ 今回は複数の論文をまとめたテーマ発表を入れると聴いたのでどのテーマにするか悩みました。最初は、…
統計的声質変換 (6) 声質変換モデルの学習の続き。今回が統計的声質変換シリーズの最終回です。今回は、前回学習した声質変換モデルを使って本当に声が変換できるか試してみたい。前回やったGMMの学習でにおける各コンポーネント の と と が学習データから…
統計的声質変換 (5) scikit-learnのGMMの使い方(2015/3/22)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデル(GMM)で学習しよう!第3回目(2015/3/4)で述べたようにclbさんの声をsltさんの声に変換することを前提に進める。 今まで「声質変換…
統計的声質変換 (4) パラレルデータの作成(2015/3/10)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデルで学習しよう!と思ったのだけれど、その前にscikit-learnのGMMライブラリの使い方を簡単にまとめることにした。本格的に使う前に簡単なデ…
統計的声質変換 (3) メルケプストラムの抽出(2015/3/4)の続き。 前回は変換元のclbさんと変換先のsltさんのメルケプストラムを一括抽出した。前回の最後の結果を見ると、二人のしゃべる速さが違うためメルケプストラムが時間方向にずれていることがわかっ…
統計的声質変換 (2) ボイスチェンジャーを作ろう(2015/2/25)の続き。 前回は音声から抽出したメルケプストラムやピッチのパラメータを直接いじることで簡単なボイスチェンジャーを作った。今回からAさんの音声をBさんの音声に変換する規則を機械学習の手法…
統計的声質変換 (1) ロードマップ(2015/2/11)の続き。 統計的声質変換の第二回ということでまずは統計的じゃない声質変換の枠組みで簡単なボイスチェンジャーを作ってみたい。いきなり本題とずれているけれどここをしっかり理解できていないと統計的な方は…
Pythonで音声信号処理(2011/5/14)のつづき。 @r9y9さんの以下のチュートリアル記事をきっかけに興味をもった統計的声質変換の実験をしてみたい。統計的声質変換とはAさんの声を別のBさんの声に変換する技術のこと。 統計的声質変換クッソムズすぎワロタ(…
前に一時期だけ音声信号処理を勉強していた(2011/5/14)ことあったけれど、その一環として@r9y9さんの統計的声質変換のチュートリアルをやってみようと思っている。統計的声質変換というのはAさんの声をBさんの声に変換するための統計モデルを学習するタス…
Open JTalkで音声合成(2013/9/21)の続き。引き続き、音声合成ネタです。Open JTalkにはデフォルトで前回の男性の声しかついていません。何となくちょっとガッカリ(笑)してたんですが、MMDAgentという別のプロジェクトにメイちゃんという女性の声がついて…
前回は、音声認識エンジンJulius(2013/7/6)を試してみましたが、今回は、オープンソースで開発されている音声合成エンジンのOpen JTalkで遊んでみました。こちらも日本の大学が中心になって開発しているようです。そのわりにページが全部英語で敷居の高さ…
SPTKの使い方 (9)(2013/3/2)の続き。今回は、分析合成音のパラメータを変えることで、高い声、低い声、かすれ声、ロボット声、子供声、深い声などいろんな音声に変換してみます。この実験はSPTKのマニュアルの8章を参考にしています。 オリジナルの音声 今…
SPTKの使い方 (8)(2013/2/16)の続き。今まで紹介したメルケプストラム分析(2013/1/19)やLPC分析(2013/2/16)を一般化したメル一般化ケプストラム(Mel-Generalized Cepstrum: MGC)分析の実験をしてみます。似たような名前のパラメータがたくさんあって…
SPTKの使い方 (7)(2013/1/19)の続き。前回は、メルケプストラムというスペクトルパラメータを用いたメルケプストラム分析合成の実験をしました。今回は、別のスペクトルパラメータであるLPC、PARCOR、LSPを用いた分析合成を実験してみます。PARCORとLSPは…
SPTKの使い方 (7) メルケプストラム分析合成(2013/1/19)の続き。メルケプストラム次数を変えたときにスペクトル包絡と分析合成音がどのように変化するか実験してみました。前回書いた mcep.py というスクリプトを使います。SPTKのmcepコマンドのメルケプス…
SPTKの使い方 (6)(2012/8/5)の続き。今回は、SPTK(2012/7/1)を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS(Text-to-Speech)ではなく、分析合成と呼ばれるものです。分析合成では、人間の音声からパラメー…
SPTKの使い方 (2)(2012/7/4)の続き。今回は、SPTKマニュアルの2章のピッチ抽出(pitch extraction)を試してみます。ピッチとは声の高さのことで、基本周波数やF0とも呼ばれます*1。ピッチは、人間の発声におけるアクセント、イントネーション、感情表出な…
最近、よく目にするので某動画サイトでその歌声を聴いてみたんだけどこれはすごい。まだちょっと音声合成っぽい感じが残ってるけどうまい人が作ったものだと人間の歌声と間違えそう。4年前に当時最新の音声合成エンジンの声を聞かせてもらったことがあった。…
最近、書きたいと思うことのネタが切れてきた。去年に比べて人工知能関係の本(ネタになりそうな本)を読まなくなってきたのが原因。最近、面白かったこと書きたいと思う。 JSP/サーブレット Javaは一番よく使う言語だけどサーバーサイドといわれるのはほと…