ちと昔の画像分析の論文が再現したくなって、その作業をしている。昔と言っても論文的には2008年とか。

だが、これが凄いめんどくさい。

まず、フィーチャーを取り出すのが凄いいろいろな手法を組み合わせる。 それがいちいち人間の目がどう見えてるか、みたいなのの実験結果とかを踏まえて決めていく。 それぞれ違う理屈から出てくる先行研究を元にしていて、例えば間の所で必要となるガウシアンの微分の近似値などは、それぞれの研究でどれでもいいはずなのだが、揃って無いので取り出すフィーチャーごとに別々の近似手法を使ってたりする。

しかもこれらの数々の実験とかの結果積み重ねられた物は、結局実数値の行列になる。それをconvolutionする所は全部一緒。

この作業は、結局いろいろな理屈により、CNNのWeightsを自分で手計算して手打ちしている事になる。 なんかいかにも人間が理屈で考えて決めるより、学習した方がいいよなぁ。 そしてCNNはそれをまさにやる訳だ。

凄い汎用的で、いちいち考えて別々のコードを書かなくて良い!全部最適な値を勝手に学習する!簡単!早い!凄い!こりゃ流行る訳だ!

と数年遅れでCNNすげぇな、と実感するのでした。