クーの自由研究

大きな海は知らないけれど、空(宇宙)の深層を学習します。

計算機音楽の自由研究(準備:その2.5)~改めて音を情報として扱う基礎を復習する

 

はじめに

サウンドを本格的に扱うにあたり、基礎知識を整理雑記します。いろんな本を読みましたが、単なる備忘録でおもいつきの羅列のため、正しい理解に興味のある方はリンクの方を参照ください。(本当は実験をしてないのでネタがないだけです。穴埋めのため、内容は薄いです。ごめんなさい。)

f:id:np2LKoo:20170427213540p:plain

今時点でわかっていること、わからないことを愚直に再入門のつもりで書いていきます。

なお、前回のピアノ音のサンプリング解析は「(音の)不確定性原理」にひっかかり停滞中です。

音とは何か

・あるものに衝撃やエネルギーを与えるとそれが振動になり、空気や液体、あるいは個体などの媒体を波として伝搬して他へ伝わるものです。
振動が隣接する媒体の粗密の揺らぎ:波(分子の位置変動)を発生させ、それが伝わります。(粗密波:縦波)
気体の場合は周波数の高い気圧の微小変化とも解釈できます。

音を聞く

生き物は生存のため、いろいろなセンサーを開発してきました。とりわけ目は優れた器官で、特に深海にも行けるイカは微小な発光や反射を検出できるよう、大きな目をもっています。(生きているダイオウイカの目の眼力はすごいです!)目については改めていつの日にか考察するとして、視覚の次に重要なのは一般的には聴覚といえるでしょう。

だいたいの生物は縦波を耳(鼓膜)などの器官で音を聞きます。(耳については書いたリンクしたことがあるので省略します。物理的にフーリエ変換することがミソです)
測定方法により各種データがありますが、人間で20Hz~20KHz(ただし個人差と年齢差は大きい)、イヌで15~60kHz、ネコで25~70KHz、イルカ類で70Hz~150KHz、クジラ類で5Hz~12KHz、コウモリで1200Hz~400KHzくらいです。高い音系では他に蛾が高音が得意です(300KHzくらいまでOKな種もいるようです)(種や文献によってかなり差があります)
高い声で会話するイルカはさすがに周波数が高いです。水中では高い音の方が伝わりやすいそうです。低音の魅力のクジラは低い音が得意のようです。ちなみにイルカは高い音は顎の下骨で拾うそうです。
レーダ機能装備のコウモリは人類でいう「超音波」で夕闇もへっちゃらです。
アメンボのように水面の横波を「聞く」生物もいますし、多くの動物は足からも振動を検知しますし、土の中にいる生物は鼻先や顎や体全体で音を検知(この場合は主に低音域)するものもいます。
かえるは前にも紹介しました10Hz~4KHzとなっている文献が多いです。20KHz以上の声で鳴く友達のかえる(もちろん聞く器官もあります)もいます。ちなみにかえる本人のコメントとしては1~2時間の気圧そのもの変化:DCレンジ(ほぼ0.0001Hz)も(音といえるか微妙ですが)「聞く」ことができるので、研究者の方にはもっと正確な評価をお願いしたいところです。(なお解剖調査には強くクレームを言いたいです)

音の伝搬は(感覚的に)かなり遅い
音は気圧・気温にも影響をうけますが、概ね秒速5センチメートル340メートルです。
すぐ近くで雷が落ちた!と思っても音が聞こえるまで結構時間がかかる感じです。
ちなみに光は秒速299,792,458メートルくらいなので光のほうが88万倍速いです。

情報量としては光・視覚のほうがはるかに大きいですが、動物間のコミュニケーションとしてはほとんどの生物が、音の発生器官と検出器官を発達させ、音によるコミュニケーションを可能にしているものが多数います。光は(発光できても)変調して情報をのせるのが生物にとっては難しいようです。

波とは何か

「すべてのものは波でできている」というオカルトを信じています。光も素粒子も電子も原子も分子もタンパク質も生物も地球も宇宙もつきつめれば波でできているんです。(くどい)
ちなみにここでのオカルトとは正規の用法:「人智を超えた神秘の知識」として使用しています。
前フリはこれくらいにして、真面目にいきます。

光も音も「波」ですが、音波は「遅い」のでその「波」としての性質をより体感できます。(あ!救急車ピーポーピーポーピーポーピーポー)波の性質を羅列します。
・一番基本的な(そして理論的な)波は定常的なサイン波です。
・波を表す性質として周波数振幅位相があります。
・波は「瞬間」としては存在せず、時間の経緯とともにある現象です。
・波は重ね合わせや打ち消しあいが際限なくできます。
・波は反射(こだま)、屈折(海中で飛行機の音を聞く)、回折(障害物があるのに音が回り込んで聞こえる)などの性質があります。
・定常波でない短い波で一定の条件を満たすものは「ソリトン」として形状、速度がかわらない(減衰しないでエネルギーが保存されている)ものがあり、一種の粒子性をもつものもあります。
・音などを「短い」基本的な波の重ね合わせで解釈する「ウエーブレット」という考え方があります。
・理論的な(定常的な)波は現実にはそれほど存在しません。始まりと終わりのあるもののほうが圧倒的に多いです。

波とは何なのでしょう。いまだに何なのかわからないです。波をみていると複素数が頭の右上のほうでくるくる回っているイメージがでてきます(意味不明)

音を情報として扱う方法について

人間の聞こえる範囲を可聴領域、それ以上を超音波、それ以下を重低音(音でなく振動で感じる)ということが多いです。(呼び方はシチュエーションや学問でいろいろ)
音の波をデジタル情報にするにはいろいろな方法があったようですが、現在はPCMを基本としている認識です。
PCM(pulse code modulation)とは音の波形を一定の時間軸毎に、振幅をパルス符号化(振幅量をデジタル化)して表す方式です。
デジタル化により、実音との差が歪やノイズとして発生しますが、視聴上問題ないレベルとなるよう規格が決められているそうです。
CDは16Bit44.1KHz(振幅は±32768、周波数は22.05KHzまで)です。聞くと不自然な感じはもちろんないですが、ツールで極端に拡大するとギザギザででこぼこに見えます。
このサンプリングレートで演算をかさねると「不自然な」歪やノイズが発生/増大し二次加工の(実用性としての)限界にもぶちあたります。
PCM関連の技術や名称、特徴を列記します。
AD変換:アナログ波形をデジタルに変換する。このとき量子化ノイズが発生するのはしくみ上の宿命である。
DA変換:デジタルをアナログに変換する。変換器はDACなどともよばれる。アナログ処理のしかたによって好みがわかれ「音のいい悪い」の趣味の世界ともなる。

音の周期:sin波であれば、0°から360°(2π rad)までの1周期の期間。
周波数(frequency):1秒間に音の周期が何回あるかを示したもの。単位はHz(ヘルツ)
振幅(amplitude):音の大きさであり、振動の振れ幅でもあります。単位は測定系によりいろいろ。
波長(wavelength):文字通り波の長さです。例えば1KHzの音であれば約34cmです。波長の1/4管は共鳴しやすいので、1KHzであれば8.5cmの管が共鳴しやすいです。マイクのセッティングで17cm(前後の)距離を間違えると位相が反転しちゃうことになります。ソロ楽器のステレオ録音では中心周波数の位相が反転しないようなセッティングをしましょう。

音の速さ(Wave Speed):光はどのような条件でも速度がかわりませんが光の特権です。温度がかわると音の速度がかわります。

周波数 = 音の速さ ÷ 波長  の関連があります。

音の速度がかわることにより、聞こえる音の波長/周波数変わることになるで楽器のチューニングはたいへんです。管は長さの微調整、弦は張力の微調整。ピアノは通常空調温度のもとでの調律です。
位相(phase:繰り返しのどの部分(角度であらわす)かを示します。単位は度(°)またはrad(ラジアン)です。

人類は位相(正確には左右の耳の位相差)の変化にたいへん敏感で、耳の集音特性による振幅感度の変化と位相の変化により首を少しだけ動かしただけで音のする方向を正確に推定できます。
定位(azimuth/Localization)どの方向から音が聞こえるかが明確であること。
音の大きさ(音圧:Sound pressure):dB(デシベル)という単位が主に使われます。人間の感覚にあわせての扱いやすさから、常用対数のスケールになります。  3dB違うと1.4倍、6dB違うと2倍違うそうです。20dBで10倍の違い、40dBでは100倍の違いです。ちなみに同じ騒音のものを2つならべると3dB増加する(1.4倍のうるささになる)といわれています(計算できるようです)。「デシ」リットルなんて理科の実験にしか使いませんが、dB(デシベル)はよく使いますね。
音の分類:音楽的には大きく分けて楽音噪音(シンバルなど音高をもたない打楽器など)、騒音雑音があるようです。

音のデジタル処理

 サンプリング周波数:アナログの音の波形をデジタル化するために一定時間毎に標本化(サンプリング)を行う。この単位で周波数と同じくHz.44.1KHzのサンプリングであれば、1秒間に44100回サンプリングする。
量子化
・CDは量子化Bit数:16Bit、サンプリング周波数:44.1KHz
・DVDは量子化Bit数:16Bit、サンプリング周波数:48KHzである。
・アナログをデジタルにするとき必ず微小な誤差が発生する。これを量子化ノイズという。

 ナイキスト周波数:サンプリング周波数の1/2までの音を再現可能で、これをナイキスト周波数といいます。(CDのナイキスト周波数は22.05KHzです)。逆の言い方をすればサンプリング周波数以上の音はどうころんでも「再現」できません。
この、量子化誤差とナイキスト周波数による誤差がデジタル処理の限界ともいえます。これらが「気にならないよう」いろいろな工夫がされてきました。
最近の動向:デジタル処理の高速化、高容量化、マイク、スピーカの高音特性の劇的改善、通信の高速化などにより「ハイレゾリューション」(高解像度)となってきています。

折り返し雑音(エイリアシングノイズ):ナイキスト周波数を超える高い周波数の音があった場合、これをサンプリングすると折り返し雑音が発生し、本来の音でないものが雑音としてはいる。そのため、AD変換ではナイキスト周波数以上はフィルタリングする前処理が行われる。ダウンサンプリングする場合にもフィルタリングは必須となる。

ディザ:一定のアナログ雑音を加えることにより、特定周波数のノイズを相対的に分散させノイズをめだたなくする手法。
ピアノの音の減衰音を44.1KHz16bitで(静かな環境で音が聞こえなくまる最後まで)そのまま録音してこのまま再生して終盤のかすかな部分をやや音量をあげて聴いてみると、聞くに堪えない酷い音がしているのがわかります。量子化は「リニア」なので量子化雑音は微小音ほど大きく感じることになります。消える間際に高い周波数の音が「キン」となっている感じです。ディザをくわえると、それを感じず、かずかな雑音の中に埋もれていきます。

オーバーサンプリング:最終目的とするサンプリング周波数よりも高い周波数(普通は整数倍)でサンプリングすることである。これにより、デジタルフィルタ処理などの前処理としての演算処理が行えるため、アナログ回路がシンプルになる(結果としていい音になる「かも」)
ΔΣ変調機:1ビットのコンバーター積分器を組み合わせたもの。CDの原データの生成に使われている。原理はそのままにあえて多ビット処理するものもある。DSDや1ビットアンプ、1ビットレコーディング機材は高嶺の花で無縁だが、技術的にはとても興味がある。
ノイズ・シェイピング:ΔΣ変調機が用いている、量子化ノイズを削減するための手法。
ノイズ・シェイピングの説明はこちら(う~ん。この会社すごい。)

アップサンプリング:サンプリング済の波形を元のサンプリング周波数より高い周波数(もしくはビット数も増やす)に変換すること。「疑似ハイレゾ化」でもあるが、「元の音より基本よくなる」という人と「情報は既に失われており、音は変わることは確かだが本質的によくなるわけではない」人と「むしろ元のサンプルを適切に処理した方が原音に近い」人がいるなど、趣味の領域の話もありました。ボクは「音質にこだわる」ことはないのでここはスルーします。アップサンプリングすると、その後いろいろな演算をするときに誤差が少なるなるという良い点(と厄介な点:データ量、演算量が激増する)があります。

個人的興味のありかなど
ちなみにボクは「AD変換でへんな味付けがされておらず、後段のDA変換がまともであれば、アップサンプリングしても音は基本的に変わらない」と思う派です。ただ、オーディオは「こんなことで音がかわるものか」「論理的には変わるはずがない」変化で「結構音が変わる」オカルトの世界であると正しく認識しています。(オーディオの趣味はオカルト好きのボクと同じ魂を感じます。)
ちなみにアップサンプリングしても元のサンプリングのナイキスト周波数以上の周波数が出てくるものではありません。(でてきたとしたらそれはノイズです)ただし、ソフトやハードで積極的に「生成」して補正しようとしているものも多数あります。これにはそんなに興味はありません。
アップサンプリングはその後のデジタル処理の誤差が少なくできることに関してはとても興味があります

 

音を解析する方法

 解析などでそのまま音の波を扱うのが適さない場合、他の情報に変換してオペレーションすることがあります。
フーリエ変換:音はsin波の重ねあわせで表現できることから一つの波形を、複数(周波数、振幅、位相)のsin波であらわす変換を行うもの。Wikipediaの画像が感覚的にわかりやすい。
ウェーブレット変換フーリエ変換と並ぶ周波数解析手法の一つ。フーリエ変換では連続したsin波(時間的に定常している)の重ね合わせを基本とするが、ウェーブレット変換では小さな波(ウェーブレット:時間的に局在化している)の重ねあわせで表現し解析を行うものである。時間及び周波数の両方の特性をつかむことができる。
http://www.elmec-gms.com/software/weveletdif.html
多重解像度解析:実質的な離散ウェーブレット変換はこちらをさしている場合が多い。

(音波に関する)不確定性原理:短時間の変化を識別するには(フーリエ変換の)窓は小さくする必要があるが窓が小さいと周波数特定が困難となる。窓が大きいと周波数特定は容易になるが、周波数変化の検出が困難となる。量子力学で有名なハイゼンベルグの不確定性原理と似ている。(本質は同じ)


人間が感じる周波数と音の大きさの関係は一定ではなく、「特性」があります。
補正:人の特性を考え、(不完全な再生が疑似的に自然にきこえるよう)特性を変化させるケースがあります。聴覚を意識した補正されたものは、さらに他の補正や加工をしようとするときの障害になることがほとんどです。元の状態に戻してから加工します。
失われた22KHz以上の周波数を倍音構成から推定して加算することにより、より自然な音として感じることがあるようです。最近は安価なデジタルアンプにもMP3補正やCD音補正で疑似ハイレゾにできる製品も多いようです。ボクの持っているアンプにもたぶんついていたはずです。(ボクのアンプは(一般のアンプからすれば)安価なほうですが、簡易マイクで部屋の周波数特性や視聴位相を測定して補正する機能がついていて、買ったとき1回やりました。「もちろん」補正前後の違いはわかりませんでした。
ボクは良い音には鈍感ですが、悪い音には敏感なほうかもしれません。MP3の音は大抵ひどいので聞くことができません。(こうまでして音を聞きたい人類の志向は理解不能です)

 

加工・エフェクト系

 フィルタ
周波数によって音を通したり、通しにくくしたりするもの。フイルタを通すと特定周波数が減るだけでなく、一般的に周波数によって位相がずれる(位相が歪む)
急峻な特性をもつものは位相を極端に崩す傾向にある。位相歪は耳障りな高音として聞こえることが多い。

 コンプレッサ
音の強弱を圧縮し、縮小させる。録音、再生機器には有効に再生できる範囲が限られており、この範囲に効果的に収めるようにする。ギターエフェクターの場合、ギターの減衰を弱め、持続音を長くするなど、音の加工に積極的に使われる。

リミッタ
ギターのピッキングなど一瞬だけ極端に音が大きい場合、全体を小さいしないと収まらなくなる。一定以上の音を一定の音に収まりやすくするため、大きな音に対して極端にコンプレッサーをかける。全体の音圧をあげるためにも積極的につかわれる傾向にある。

ディエッサ-
空気が歯に当たる時に発生する歯擦音(しさつおん)を軽減するエフェクター。マイクが拾いやすく再生では大きく聞こえるため軽減させる。歯擦音('ess'音)は周波数が高く、デジタル加工するにあたっても多く含まれていると扱いにくいソースになるため軽減させる。

 

カルト系
ピュアオーディオ:少し極端ですが、これぞピュアオーディオです。

 

このページに出てきた用語はこの後のページで普通に使っていくと思います。

よろしくお願いします。

「XXXの自由研究(そのn)~副題」表題は評判が悪いです

 ・「夏休みの自由研究」を検索する小学生や父兄の方の検索のじゃまになる。
・検索や一覧で並んだときに、一覧の横幅によっては内容がわかりにくい
・2個以上同じ感じの記事になると、両方ともトップ10ページ検索から消え去るので勿体ない。(トップページに出たので気を良くして続編を書いたらともに検索圏外になるのはあるあるです。間違っても「同じ名前(その2)」などにしていはいけません。前の表題と違った用語を用いつつも続編であることがわかるような表題を心がけましょう)
ですが、へそまがりを自他ともに認めるボクは初志貫徹でこの表題を続けます。
100個くらいコンスタントに記事を書いていけば、Googleで「計算機音楽」と入力すれば「自由研究」が次の候補に出るようになるはずです。

ちなみに「自己符号化器」については、あれほどがんばって書いたのに、googleの単独検索で1個も表示されませんLibrosaでの検索はおかげ様でトップページにでます。(興味ある方は 「Librosaで検索」)検索の順位はあまり気にしないのですが、検索のランクの仕組みにはとっても興味があります。

「自己符号化器」と「自由研究」の複合キーワードでは検索されるのですが、世の中にこの組み合わせで検索する人は誰もいません。

余談ですが、当初このページは図は表をいれてわかりやすくするつもりですが、書いているうちに(内容の薄さに)むなしくなってきたので、諦めました。あしからず。

 医療では音情報をかなり重視していると再認識

あたりまえですが、診断の聴診器は伊達ではないのですね。体のあらゆる音を「自己符号化器」に学習させて、かついろいろな症例の音も学習させておけば、安価で簡易な音診断できる医療補助器具がつくれそうです。(開発できたら、OMROM社かTAMITA社くらいに売り込みにいきます。認可をうけるため症例検証や臨床データをとるとなると高価になりますよねぇ。)音以外のセンサー技術も最近とっても興味があります。Raspberry Piが無性に欲しい今日このごろです。

 おもしろそうなので、他にどんな音アプリがほしいか考えてみましょう。ほとんどひみつ道具的ですが。

こんな音アプリがほしい!

「音響捜査官 響〇子」

音を聞いたら場所やシュチュエーションを推定してくれるアプリ

「心理カウンセラー 雅治」

音声を聞いたらどんな気持ちなのかを推定してくれるアプリ(ドラマは見逃したけど)

「帝王のボイトレ」

歌や演奏を聞かせたらどこがいいところか、どこが改善ポイントかアドバイスしてくれるアプリ

「そんなこったぁ(Cortana)しり(Siri)ません」

無駄話の相手になってくれるアプリ。Siriさんは何気につれないです。Cortanaさんは人の話を聞いてません。

「音の見ず博士」

あらゆる「ある」音が何なのかを限られた情報から推定するアプリ。(漢字の音読はできません。)

「きき耳ずきん」

動物と会話できるアプリ。いまの技術を集約すれば十分可能なはずなのですが、研究する人すくないのかな。。。たしかにいい線までいっているソフトはありますが、汎用性に課題ありですね。

 

がんばって考えても「ほんやくコンニャク」にはかないません。