クーの自由研究

最下層からまた一段ずつ螺旋階段を登り始めます

画像の基底は2次元ガボールフィルタ、音の基底は1次元ウエーブレットでいいんじゃない?

1月の保守をはじめます(助手)

みなさま、たぶん8か月ぶりです。お久しゅうございます。
わたくしはかえるのクーの助手の「井戸中 聖(いとなか あきら)」でございます。今月の保守担当はわたくしです。

昨年の冬は音の研究の一環で「ボカロ」にチャレンジしてみました。

後半は空中分解の様相でしたが、いちおうクーへの「音の実験やろう!」の後押しになったのではないかと思います。

 

物理エンジンむずい

さて、この冬のお題は「物理エンジン」ですが、敷居もしくは閾値が高すぎで、いまだ誰も立ち上がっていません。
今この状態では春まで成果(なんとなく動くものをでっちあげる)はでない(できない)と思われます。

f:id:AssistantOfKoo:20180111235639j:plain


たしかにUnityちゃんはかわいいですが、チュートリアルしておしまいです。

 

かえるのクーは、たぶんこんなのがやりたいのでしょう

 

もとはniconicoですね。
私見ですが、どちらかというとクーは「物理」よりも遺伝的アルゴリズムに興味があるようにおもわれます。
あと、複雑系カオス系もきっと持ち込んでくるに違いありません。でもそれらを発現させるには「物理エンジン」による「実験空間」が最適であるのはもっともです。
そしてこのブログはだんだん黒魔術の世界にはいっていくことでしょう。(なぜならクーはオカルト大好きなので)
ああ、純粋な技術系ブログのはずだったのに。。。
(基本的な数学を十分理解するのはもちろんですが、そのうえで性能をさらに向上させていくのは試行錯誤、遺伝的アプローチ、そして「なぜ、そうなるのかわかりません」(語り:林原めぐみ)という黒魔術の世界へ。。。まぁ、複雑系であれば、分解してこまかな要素にして分析しても何もわからないのはもっともですが。)
余談ですが、仮想通貨には全く興味がないのですが、ブロックチェーン技術はとても興味があります。ノード(ニューロンであれ、ガジェットであれ)が協調&分散して全体でまとまった動作をする複雑・カオス系の情報交換のインフラとして利用できるのではないかと思っています。


さて、将来のことに気を揉んでも仕方ないので、先へすすみます。

おととしと去年のクーの実験で感じたこと

この記事は保守ページ(無理やり1ヶ月に1つは書くというこのブログの掟)なのですが、「物理エンジン」もできないことですし、無謀にもクーの実験のまとめなどをしてみます。

画像(2次元)はガボールフィルタ基底

考察もなにもないですが、クーの実験を(ブログで)見ていて、1昨年行った、MNISTの学習をとおして、画像の一番基本となる基底はガボールフィルタがよさそうだと感じました。

f:id:AssistantOfKoo:20180112002434p:plain

画像の最もプリミティブな基底は学習ではなく、最初からガボールフィルタを準備しておくのでいい気がしてきてます。

音(1次元)はウェーブレット基底

昨年行った、音の自己符号化器学習実験をとおして、音の基底はウェーブレットがよさそうだと感じました。

f:id:AssistantOfKoo:20180112002450p:plain

基底とは:線形代数の用語です。基本ベクトルみたいなものとイメージしています。ベクトルというよりテンソルといったほうがいいのかもしれません。一般的には高次元の配列で表現します。例えば自己符号化器に画像の学習をさせたときにできあがる汎用性の高い「重み」の配列が基底に相当します。深層学習では最も低い(実データに近い)部分が直接的な識別・表現における基底です。基底の比較的少ない(スパース)組みあわせ・重ね合わせでデータ・事象を効率よく表現できる場合すぐれた基底といえます。

余談ですが、画像の学習でガボールフィルタ様の基底獲得はクーの実験でも確認できているように、「自ずとできてしまう」くらいに基本的なもののように思います。脳の視床下部のニューロンにも形成されることが確認されています。

に関してのウェブレットの基底獲得はクーの実験ではその片鱗もみられませんし、いろいろな論文でもウェーブレット基底を学習で獲得できたものにはお目にかかっていません。(いくつかの論文では「音に関しては学習によるウェブレットの基底獲得は困難であると思われる」と評していました。:すみませんどの論文かわかりません。)

基底は対称と非対称な要素が混在したほうが「解像度」がよい

ガボールフィルタもウェーブレットも
・1次元(また2次元)方向に対して対称なもの
・1次元(また2次元)方向に対して非対称なもの(周波数はそのままに、減衰・立ち上がりが非対称なもの)
のくみあわせがよいと感じました。
音について:時間に対して対称なウェーブレットは「キレ」にかけるので、非対称のウェーブレットが効果的だと感じています。
画像について:「物体の輪郭」をよりシャープに検出(表現)するために非対称のガボールフィルタが効果的だと感じています。
でも、中間部(画像ならベタぬり部分や、継続音の部分)の表現を非対称な基底で行うといびつ(ムラやノイズ)になるケースがあるので、やはり対称性をもった基底も必須だと思います。
(時間をかけてこのあたりを例示したいのですが、時間がありません。あしからず)
クーが目覚めたら、今年の改良案として提案してみます。

「キングレコードにハシゴを外された」とは?

わけのわからない戯言で終わってしまいすみません。
あきれずに、クーが目覚める(はずの)4月(3月?)までお待ちください。