クーの自由研究

最下層からまた一段ずつ螺旋階段を登り始めます

「音声」について勉強させてください

音声コーパスの公開に感謝 

こんにちわ、こんばんわ、かえるのクーです。

いろいろな情報やデータが公開されていてとても嬉しいです。 

さて、この声は 日本声優統計学会 様で公開されている「上村彩子様のHappyタイプ」声優音声コーパスから作ったものです。(音声コーパスからの、)単なるコラージュです。(手作業で切り貼りしました。イントネーションはとても大事なことを実感できます。)

f:id:np2LKoo:20180505014638p:plain

公開されているコーパスは100個つづ、声優さんごとに「通常」「喜び」「怒り」の3タイプでCC-BY-SA ライセンスにて公開されています。嬉しい限りです。

 

例えば以下のような感じです。

ボクのオキニの声優さんについては、ラジオ番組から主に学習するつもりです。(それはさすがに直接貼れないですが。)そこにいくまえに、テスト用実験データとして目いっぱい使わせて頂きます。感謝いっぱい。

やる気こそが原動力

 さて、風呂敷を広げてしまった以上、やる気をださないといけません。

まずは、スタートラインなので、諸先輩方の奮闘を確認しました。
改めて検索すると、ボクがやろうとしていたことは、やり尽されている感じがします。
技術的なこと以外では、声優の声を題材とした実験、研究では、オキニの「声優」へのこだわりというか、愛情というか、そういう思いが圧倒的なモティベーションになっているのがよくわかります。もちろん、ボクもそれが原動力です。

 

今回は自分用参考書、リンク集としてのページです。(しばらくは継続的に更新、追加します。もしかしたらすぐリンクがなくなるものがあるかもしれませんので、ご容赦ください。)
これらのページを勉強していきます。説明は数式がたくさんでてくるページばかりですが、数式コンプレックスの裏返しです。もちろん今はわかりませんが、すくなくとも「数式を見た瞬間に頭が痛くなる」ことはなくなりました。(個人的には大きな一歩です)

リンクはわからないからこそ、自分が何回も見直すために張っているものです。

 リンク集

 音声全般の基礎を勉強

 【音響音声学(東京大学大学院工学系研究科 峯松 信明教授)レクチャーシリーズ】

レクチャ01(イントロダクション)
レクチャ02(音声学の「いろは」:高校までの知識の復習)
レクチャ03(〜初めて音声波形を見る方へ〜(実習編))
レクチャ04(~初めて音声波形を見る方へ:拡張版~ +α:音声波形を中心に)
レクチャ05(サイン、コサイン、フーリエ変換、窓関数、ウェーブレット)
レクチャ06(波形の分解、合成、要素、音楽の律、音圧、フォルマント、物理量と心理量)
レクチャ07(音(音量・高さ)の知覚、音響特性、複合音の知覚)
レクチャ08(パターン認識、マスキング、臨界帯域、方向知覚)
レクチャ09(文節音ラベリング、摩擦音、破裂音、鼻子音、鼻母音、フォルマント)
コラム(音響音声学をとりまく話題)

峯松信明&峯松研究室のホームページ

音声は、相対的・動的な認識知覚からのフィードバックで成立することを納得です。

音+機械学習といえば

いつも参照させていただいております。改めて感謝。

 

やっぱりGMMとHMMわかんなくっちゃなのですね。https://sunpro.io/c89/pub/hiromu/hiromu.pdf

「符号化器万能論」信者のボクとしては「符号化器」でも高品質な音声変換ができると考えています。問題はボクの力量だけです。

 

データは大事

声質変換についての記事

初心者で訳も分からずググっていると、声質変換では必ずといっていいほど、GMMとHMMという言葉がでてきます。「符号化器」で声質変換するので、ボクは使わない技術だとは思いますが、そのコンセプトは理解しておく必要がありそうです。

 

GMMについてのこと

みなさんが参照されている@r9y9様のページです。

統計的声質変換クッソムズすぎワロタ(チュートリアル編) - LESS IS MORE

GMM(混合ガウス分布は他もわかっていないとわからなそう。。。)

そう!黄色い本(PRML)の下巻の後半だ!また最初(上巻1章)から読み直してるので、いつ到達できるやら。。。

はじパタ」参照の記載が多いので、この本も今月ようやく買いました。

 

そう、世の中のすべての事象はガウス分布の線形重ねあわせ(足し算)で近似できるのさ!(わかってないのに知ったかぶり)

 

HMMについてのこと

隠れマルコフモデル (hidden Markov model: HMM)

https://www.sp.nitech.ac.jp/~tokuda/selected_pub/pdf/kenkyu/tokuda_SP2000-74.pdf

blog.albert2005.co.jp

表に現れない変数なのに、推定しちゃうぞぉ。気分は名探偵コナンクー

たった一つの真実見抜く、見た目は子供、頭脳は大人かえる

いや、それより、コナンくん。お願いだからその蝶ネクタイ頂戴!!

統計的音声変換・合成技術について

https://www.sp.nitech.ac.jp/~tokuda/tokuda_SIG-SLP_2015_for_pdf.pdf

 

やばい、いっぱい貼ったら自分でも訳がわからないリンクになってしまいました。

くどいですが、ボクが理解したいから(今は全くわからないから)貼っております。

今年1年かけて勉強していきます。(特に黄色い本(PRML)と「はじパタ」を読む原動力がわいてきたぞ~)さぁ。みなさんもご一緒にPRML頑張りましょう。

やっぱり、モチベーションは「あの声になりたい!」

おまけ

凹様のページより

www.youtube.com

みんな、練習しよう!!

www.youtube.com

方向性

 おそらくは音声を無理やり「符号化器」に放り込んで、簡単な演算をして「復号器」で目的の音声に近くなるよう学習させていくことになるような気がします。

おそらくは「何が何でも無理やり『符号化器』を使ってやってみる」ことがこのブログのポイントとなるでしょう。
おそらく従来にも増して面白みのない(結果がわかりきった)実験が続きます。「自由研究」とはきっとそんなものですが、個人的には瓢箪から駒もあり得ると思っています。

アボガドはおいしい (こちらがブログ本編です)

 アボガドサーモン丼、最高です。

薬味は「金印きざみわさび」がGood!