計算機音楽の自由研究（実験：その４）～時には成功することだってある～

厳密ではないですが、原理的に離散ウェーブレット変換と等価です

こんにちは、こんばんわ。かえるのクーです。
（準備：５．２）で作成した『コレ(自己)ジャナイ符号化器』の性能をみてみます。

実験３で失敗の中に成功の片鱗がみえているので、あとはどれだけうまくいくのか興味です。

元にする曲：３分程度の曲を準備しました。

曲はYoutubeにアップしたけど、ブログ内キャンペーンもやったけど、公開してから半年以上たっているけど、今時点で総ビュー数「24回」を誇る「あの曲」です。

なお、このページでどれだけ再生してもYoutubeの再生回数はあがりませんので、あしからず。（このページに貼っているのはYoutubeでないので、あたりまえですが。）「Carpet of the sun」というプログレ好きの方ならたぶん聞いたことがある？Renaissanceの曲です。曲はプログレではなく、ブリティッシュなフォークトラッドです。歌っているのはミクです。

実験結果

SoundCloudの残り時間を温存したいので、復元した曲の最初の１分くらいのみをアップしました。（符号化器にかけるときにモノラル化していますので、復元もモノラルです。）

復元音

見事なまでに再現しています。もとの曲はずっとまえにSoundCloudにもアップしています。あたらめてはります。（こちらはステレオです。この曲を符号化器にかけて復元しています。）

元の音

よく聞かないと違いがわからないほどです。差があってもいわゆる「デジタル系」のブロック化ノイズではないので全然気になりません。（もとがステレオなので、比較は難しいですがほぼ再現できていると言っていいと思います。） f:id:np2LKoo:20170922202520p:plain 上がエンコーダをとおして復元した波形。下２つが元の波形（左右チャンネル）です。モノラルになっているので、多少わかりにくいですが、ほぼ完ぺきといっていいくらいに波形がそろっています。

離散的な方法なので、必ず誤差が発生する方式での復元であるのに、この復元のレベルはすばらしいです。何度もきいていると、特に低域から中域にかけてのリズムやベースの「切れ」が、「かなり」そこなわれているのがわかります。まぁ、低域のウエーブレットのゆる～いエンベロープの重ねあわせで低域ができるので、無理はありません。が、そこも気をつけなければ、わからないくらいだと思います。

これは昨年の『「線形活性化関数」でも学習できる』件以来のクリーンヒットだと自画自賛状態です。もちろん、ボクが優れているのではなくて、離散ウェーブレット変換がすぐれていたのですが。最近の停滞ムードをかなり挽回できそうな感じがしてきました。

符号化して圧縮したデータについて

圧縮率を計算してみます。

管理情報を除いた情報での計算です。

元の音：（モノラル換算で計算）

44.1 KHz サンプリング 16it なので1秒あたり、882,000Bytes

符号化した情報：（こちらはモノラル、48Kにリサンプリングした情報で計算）

各周波数レンジについて12(半音）×16（位相）×１秒あたりの演算結果数（ 48000（サンプリング周波数）/ ウェーブレットの幅（range0なら32,768）×４（幅あたりのシフト数））×4（32Bit浮動小数点の情報なので）

range = 0 (27.5 to 55 Hz)：12 × 16 × 48,000 / 32,768 × 4 × 4 = 4,500 Bytes
range = 1 (55 to 110 Hz)：12 × 16 × 48,000 / 16,384 × 4 × 4 = 9,000 Bytes
range = 2 (110 to 220 Hz)：同様に 18,000 Bytes
range = 3 (220 to 440 Hz)：同様に 36,000 Bytes
range = 4 (440 to 880 Hz)：同様に 72,000 Bytes
range = 5 (880 to 1760 Hz)：同様に 144,000 Bytes
range = 6 (1760 to 3520 Hz)：同様に 288,000 Bytes
range = 7 (3520 to 7040 Hz)：同様に 576,000 Bytes
range = 8 (7040 to 14080 Hz)：同様に 1,152,000 Bytes
range = 9 (14080 to 28160 Hz)：同様に 2,304,000 Bytes

合計　4,603,500 Bytes !!!

１秒あたり、4,603,500 Bytes　です。

なんと約5.2倍になっています！圧縮どころではありません。演算のため16Bit整数ではなく32Bit浮動小数点にしているとはいえ、すこしデータが多すぎます。でも、これだけの情報をかけて符号化しているので、復元に優れているのは感覚的にしっくりきます。

圧縮符号化した情報はどんな感じ？

エンコードした情報は、「１２半音での周波数の解析結果が時系列にある」情報です。この情報があれば、

・もちろんそのままクロマグラム（12音解析）できる！
・そのまま縦横グラフにすれば、縦軸「周波数（対数）」横軸「時間」のスペクトログラムできる！
・局所的に周波数と位相に分離できているので、ちょっとした演算でイコライジングやエフェクトかけ放題
以下妄想
・基音が類推できれば、楽譜を生成できる！

・楽器の倍音構成が別に学習できていれば、さらに圧縮結果に自己符号化器をかけ、楽器音に分離して圧縮できる（かなりいい精度でトラッキング分離ができる「はず」）
・この情報さらにマルコフ解析やRNNとかパターン分析していけば、作曲パターンを分離抽出できる（ここは学習で！）