音の機械学習は隠れたブームから表舞台へ出れるかな
こんにちわ、こんばんわ、かえるのクーです。
さて、実験が停滞しており、ブロク更新もとどこおっております。
報告する内容もないのですが、「停滞状況」を報告します。
発生した音声のフォルマントをリアルタイムで解析して、そのフォルマントで合成音を発生するプログラムの試行をしていますが、まったくうまくいかず滞っています。(「ほぼボコーダじゃん!」となる予定でしたが。。。リアルタイムはムズいです。)
停滞のいちばんの原因は、アニメ息抜きに観たら、そういえば、膨大な録画をみていない。。見なくっちゃ。。と、実験をする時間が全くなくなってしまいました。自業自得です。
さて、最近は画像処理の他にも「音声」処理に関する話題が結構でてきました。
Googleはtacotronとかtacotron2で頑張っているようです。貼ってあるリンクは少し前はサンプルを聞けるものもあったけど、今は残念ながら「無効なソース」のものもあるようです。ものによっては、IE11だと「無効なソース」にみえるようです。そんなときはEdgeか他のブラウザでご覧ください。
Audio samples related to Tacotron, an end-to-end speech synthesis system by Google.
平気で英語のリンクを貼っていますが、読めません。でも内容はなんとなく雰囲気で伝わる気がします。中ほどの「Tacotron 2 audio samples」リンク先は秀逸です。こちらはきれいなサンプル音声が聞けます。(こちらもIE11だとだめみたい?)
ボクが興味のある内容を貼ってみます。リンク先やそのまた先には楽しいサンプルがたくさんありますので、すこしでも興味のある方はぜひ、聞いてみてください。結構楽しいです。
ボクのやりたいことはもうやり尽されている感があります。。。
リアルタイムでグラフを書けるpyqtgraphはすごい!
さて、音声を扱う上で、リアルタイムで「波形」をみれることと、「スペクトラム」をみたくなってきました。
検索すると、こういうのはすぐにヒットするので助かります。
リアルタイムの描画にはpyqtgraphを使うところがミソみたいです。
下の記事の内容はやってみましたが、とてもいい感じに動作できました。
こんなのがソースのコピペだけで簡単に動くのですから、Pythonの環境はすごいです。
応援するかえるを応援
一平くんがんばれ
そしてボクはもうしばらく小休止。
どうでもいいけど、今年こそ買い換えようと思っていたパソコンが資金不足で買えないので、今のパソコン延命のために500GBのSSDを買いました。これで容量不足ともさよなら。。。か?
GPUの価格が持ち直してしまったので、GPU購入も見送りです。
あと、メモリーが下がればなんとか思いきれるんだけど。。。なぁ。