【書籍】原論文から解き明かす生成AI
【書籍】原論文から解き明かす生成AI
菊田先生のありがたい本。
読み始め 2026-06-01 (月)
買ってはいたのだが機械学習系の仕事も離れていたし、という事で読んでいなかった。 無職になったのでなんか教科書っぽいものとか読みたいな、と思っていたので、この本を読んでみる。 あまりこの辺に関わる事は無さそうな気もするが、 直接役に立たない事を学ぶのが無職の本懐というものだろう、ということで。
まずは第一章の最初の方を読む程度。
1章のメモ 2026-06-09 (火)
普遍性定理
えーと、これか? Cybenko: Approximation by superpositions of a sigmoidal... - Google Scholar
superpositionは重ね合わせだそうで。
ヒルベルトの13番目のプログラムでKolmogorovがすべてのn変数連続関数は1変数の関数の有限の重ね合わせで表せる、みたいな事が言及されているな。 これか?
Kolmogorov–Arnold representation theorem - Wikipedia
Rieszの表現定理とか昔やった気がするが何も覚えてないな。
と数学のフォルダを漁っていたら、買ったまま積ん読だった以下がでてきた。
いい機会なのでこれの最初の方でも読んでみるかなぁ。Rieszの定理は8章だ…
Universal Approximation Theorem
大まかにあらすじくらいは理解した。
Discriminatory
どんなyやθを持ってきても定義の積分が0になる => 測度0 を言えるシグマ。
証明のあらすじ
Gの形でシグマの線形和を作って、これが稠密である事を証明する。 あらすじとしては稠密でないなら分離するような汎関数が作れて、これがdiscriminatoryの仮定に矛盾する、という話と、 シグモイド関数がdiscriminatoryだ、という二段構えの証明。
後者はシグモイド関数のパラメータの所に極端なものをいろいろ入れる事で非ゼロ測度があるなら切り出す事が出来るという感じ。
証明から受ける印象
これは級数の誤差が減っていく、系の証明では無いので、Nを大きくしていくと誤差が減っていくという事は言えない。 だから例えば誤差を0.1以下にしたい、みたいな時にNをどんどん大きくしていくとだんだんと小さくなって目的の誤差の範囲に抑えられたら操作をやめる、 みたいな事を出来るとは言っていない。
あくまでそういうGが存在する、と言っているだけ。
だから実用的には2層のニューラルネットでもノードが多ければ任意の連続関数を近似出来る、という言い方は誤解がある気がする。 どこかにはそういうニューラルネットが存在する、といっているだけ。 Nを増やせば誤差が減っていくという事を言っていないので、適当な所で妥協する余地が無い。
テイラー展開みたいにだんだんと誤差が減っていくという事が言えれば任意の連続関数をノードを増やせば近似出来ると言ってしまえると思うんだが。