という訳で、Probabilistic Metric Spaces (Dover Books on Mathematics)を読んでいく事にする。

さっそく1.1で\(F_{pq}\)の定義が出てくる。そうそう、やっぱこういうのが足りてなかったんだよな。

1.2.5を追ってみる

で、1.2のTの定義は良く分からないな。なんか関数解析の最初の方で見た事ある気がするが…

で、dを決めるとmetricの定義を満たす、とあるので自分で試してみよう。

この2つの条件と、1.1.7-1.1.10から、距離の3つの定義である1.1.1〜1.1.4を満たす事を示せば良い。

まずは1.1.1から。って微妙に書き方が分かりにくいな。まず、dがゼロならp, qが等しい、を示す。

次にp=qならdはゼロ、を示そう。

p=qだから、1.1.8あたりを使ってみよう。

言えそうだね。

この手のは三角不等式以外はだいたいほとんど自明なんだが、それを確認するのは結構理解を助けるので、もう少しやってみよう。

次は1.1.2。

言えそう。逆はどうだろう？

1.1.8からあるxで1じゃなくて、その値をDと置いて1.2.5に代入すればdがDより大きい、つまりゼロじゃないと言えそうね。

対称律はどうだろう？ 1.1.10からFは対称か。

すると1.2.5で同じと言えそうだな（厳密にやるとちょっと頑張る必要はありそうだが）。

そろそろ三角不等式、1.1.4に進もう。

厳密な事を言えばxとyはdよりちょっと大きい訳だが、このちょっと大きい部分は任意の小さいイプシロンで十分なので、感覚的には成立してると言えそう。

ここまでだと1.2.3を使ってないので、そこだけいまいちピンとこない。三角不等式の逆をやれば良さそうかな。やってみよう。

逆はdの方で三角不等式が成り立ってるとして、1.2.5を仮定して、1.2.2〜1.2.4が成り立つ任意のTに対し1.2.1を示せば良いのかね。

やってみよう。

二時間くらい頑張ったが、言えない気がしてきた。まずT(0, 0)が0とは限らない。その他T側の条件がゆるすぎて、1.2.1を証明する事は出来ない、という結論に。

別の論文を調べてるとassociavityを仮定してるのがあるので、この辺があれば行けるのかも。

なんにせよ間違ってそうなのでやる気は失せたが、その過程でこれらの条件の理解は深まったので良しとする。

1.4 具体的なTの発見

どうも距離の公理と1.2.2以降を満たすTとはなんぞや、というのは、その後いろいろ研究される対象のようだな。やはり自分には元の定義には足りてない要素があると思う。例えばいつもT(a, b)=1でも成立してしまう気がするが、それでは何も言えないはず。

が、突っ込んで考えるのはやめておく。

ただこの歴史的な話は凄く良いね。なんで自分がこの話題に全然ついて行けなかったかが良く分かる。

さて、1.4では1.2.1を満たすTの具体的な話となるので、1.2.1を再掲しておこう。

さて、その後t-normの話が出てくる。定義が散らばってるので、ここでまとめておこう。

t-norm

1.2.2、1.2.3、1.4.3、1.4.5を満たす関数をtriangular norm（またはt-norm）と言うらしい。

1.4.1のうち、これを満たすのはどれか、みたいな話をしてるな。考えてみよう。 1.2.3までは全部満たすので、1.4.3より先だけ考えれば十分だな。

1.4.3はMまでは満たすね。そこからは満たしてない。

1.4.5はぱっと見ただけじゃ分からないな。

ぱっと見は成り立ってないように見えるが、成り立つと言ってるのだから成り立つのだろう。場合分けしてみるか。

なるほど、このケースで言えそうならだいたい言えそうだな。

abcが同じなのは自明、minもa, b, cのうち一番小さい物を返す、という事は変わらない。

さて、t-normは以後良く出てくるとの事なので、ここに書いておこう。

Menger spaceとWald space

どちらも、\(F_{pq}\)として、1.1.7〜1.1.10を仮定している。

そしてMenger spaceとは、あるt-norm Tと1.1.7〜1.1.10、そして1.2.1を満たす\(F_{pq}\)の張る空間。

Wald spaceは1.1.7〜1.1.10と1.3.1を満たす\(F_{pq}\)の張る空間。

そしてWald spaceは、\(\Pi\)のMenger spaceになってるとの事。

そのあとの1.5のExample で出てくるsimple spaceなどは、必要になったらちゃんと追えばいいかなぁ、という事で眺めるくらい。

distribution generated spaceはこの記述じゃ良く分からなさそうなので、必要なら後で出てくる、と期待して流す。 C-space、transformation generated spacesなどの名前が出てくる事は意識しておくが、10章への参照が多いので10章までは要らないと予想。

1.6 PM space

probabilistic metric spaceの定義は重要かもしれないので、ここに軽く書いておく。

1.1.7〜1.1.10と、\(F(0)=0\)と（ここまでをddfと呼ぶらしい）、以下の1.6.5を満たす\(F_{pq}\)と、

1.6.1〜1.6.4を満たす\(\tau\)が規定する距離空間をPardmetric Metric space と呼ぶ。

ここで、\(F \leq G\) は\(F(x) \leq G(x)\)が全部のxについて成り立ってる事を指す。

さて、ここで定義の全体を見渡してみる。Fはもともと2つの点の距離が引数以下の確率だった訳なので、気分的には距離を現していた気がしていたが、では\(\tau\)とはなんだろう？

1.6.5を三角不等式のprobabilistic metric版だとすると、やはりFが距離を表しているように見えるのだが。

これは距離の合成、みたいなのを扱っているとみなすと、+に近い物なのか？

あ、後に説明があるな。実数の距離をddfに変えて、足し算を\(\tau\)に置き換えれば良い、と。

良し、今のところなんとかついてこれてるな。

Random metric spaces

ここは、ここまでの話と突然変わるように見える。なお、良く似たRの文字が2つあるが、微妙に形がちがくて、最初この違いに気付かなくてさっぱり意味が分からなかった。

1.7.1のDは、dの集合である。で、Pは様々にありうるdの測度となっている。といってもその測度がどんな物かは具体的にはこれだけじゃ分からない。

その次のStevensの定義はもう少し分かりやすいな。

E-spaceあたりから追うの辛くなってきたので、眺めるくらいで進む。歴史的発展を扱ってる上に参照してる章が大分後半になってきたので、まぁいいだろう。

（一章を読み終えて）Probablistic metric spaceとはどういう話か？

1章を読み終えて、なんとなくこの本で扱っている話題を理解してきたので、現時点での理解を書く。

自分は最初、確率分布同士の距離を扱っている事を期待していた。もともとWasserstein metricやCramer metricの周辺の話題を知りたかったので。

だが、ここまで読んだ印象だと、この本ではあまり具体的なmetricは扱っていない気がする。それよりはmetricを定義する為の下準備として\(F_{pr}(x)\)という物を定義したり、それの上での三角不等式とはなんぞや？みたいな、もう一段抽象的な所で確率分布の距離と、それの張る距離空間の性質を調べようとしているように見える。しかも、まだこの研究は終わってないような？

直接metricの話が出てこないのはあてが外れたが、ここに出てくる数々の用語やLevy metricなどは先の挫折した本に当然のように出てきていたので、どうもこの本の内容が前提となって個々のmetricの話はある気がする。
だから直接は役に立たなくても、ここから入門するのは正しそう。

最近のGANの話などを知る為にOptimal Transportとかでググって出てくる説明とか読んでも、明らかに足元というか基礎の部分をおさえられてない感じがする。それはこの辺の知識が無いからなんじゃないか。

一方でKantrovichの名前が一切出てこない。という事でこの本をやっても多分必要な事まではたどり着かないようだ。この続きをやる必要がありそう。

なんとなく今持ってるイメージだと、Optimal transportの問題は別に研究されていて、発展していった結果こちらの枠組みで議論されるようになった、という事なのだと思う。だからこの本で扱われてる基礎を理解し、向こうの議論の発展を理解し、そして両者の発展的な統合した話を理解する必要があるんじゃないか。

この本の前提としている難しさについて。
ここまでの感じだと、この本が前提としている知識はそんなに多くなくて、今の自分でもなんとか読める気がする。測度論、公理的確率空間、簡単な関数解析の基礎くらいは前提にしていそうだが、そこまで習熟している事は前提にしていない気がする。

これをある程度読めば、自分に欠けている分野を自分で判断出来る所まで行けるといいなぁ。

2章集合とか関数とかの定義

この章は以後で使う関数とかの定義を集めただけっぽい。定義域とか値域の定義、とか。

さらっと流す。

2.1.2 quasi-inverseの定義

少し表記が頭の中だけでは整理出来なかったので、補助用の図を描いておく。

2.1.6の定義は

Ran fの範囲だけでgの全値域がカバーされている
fのdomain側も、gの値域だけでfの値域はすべてカバー出来る
Ran fの範囲では、gで写像した物はfで戻る

という事を言っているな。 gのdomainが全てRan fと言っている訳では無いのに注意が必要か。

以後の\(g_3\)などの例を考えてみよう。
\(g_3\)の値域は正の実数なので、domain側が正の実数だけで全てカバー出来ている。で、この正の実数の範囲なら\(g_3\)で写したものは、fで戻る。

そして\(g_3\)のdomainの負の方に関しては、それが値域を「広げなければ」なんでも良い、という事だな。

2.2.4のあたりで休憩。一つ一つはそんな難しくも無いのだけど、見てすぐ分かるという程この辺完璧に覚えている訳でも無いので、結構疲れる。

とは言っても細かい話はいかにも分布関数を意識してそうな物が多いので、頑張って追う。こういう目的が分かりやすい物は頑張る気は出るやね。

2.3.2 可測関数の定義を見直す

あれ？x未満の逆像がボレル集合族、という定義だっけ？と思ったので、他の本を見直す。

まずは自分のバイブル、ルベーグ積分から確率論、

を見る。

ついでにボレル集合体は、全ての開集合を含む「最小の」シグマ集合体（p18）という定義なのを確認。

可測関数の定義はp32にあって、ほとんど本書と同じ内容だ。

あれ？そうだっけ？と次のページを見ると、この定義は、ボレル集合体の任意の逆像がボレル集合体に属す、という事と等価だと書いてある。（命題2.1 の5）。

そして最近見た以下の本

でも確認しておくと、p67の2.3の冒頭で、この等価な方の置き換えの言葉で書いてある。

こちらの方が感覚的に分かりやすいので、むしろこちらを覚えて、それと等価な条件としてそれ以外の物も覚えるようにしよう。

このIntroductoryの本で感覚的な定義を見た後に本書などの細かい話を見ていくと凄い理解が深まるな。以前は各定義を追うだけで精一杯だったが、今回は大分ルベーグ積分周辺の定義や定理の関係が分かってきたヽ(´ー｀)ノ

定義2.3.2の下に、しれっと「閉区間上で定義されたnondecreasingな関数はボレル可測」と書いてあるが、そんな明らかだろうか？

nondecreasingかつ閉区間なのだから、有界なのはいい。で、ジャンプしかありえないのだから、それは感覚的には有限個の開区間か閉区間または片方ずつの区間に分割されそうか。で、この区間の定義域はジャンプの点を元にした開区間とか閉区間になるか。

開区間も閉区間もその和やintersectもボレル集合体だから、可測になりそうだな。

dPによる積分が良く分からない

2.3.5の後に、\(\int _A f dP\)というのが出てくる。このdPによる積分が何なのか思い出せないので、ルベーグ積分周辺の話を復習しよう…

まず、Introductory Functional Analysisのp63を見ると、yつまり値域の方の開集合に対し、その逆像がシグマ集合族に属すので、その時のfの値にこのシグマ集合族をPで測った値を掛けて足し合わせるのがルベーグ積分だ。
厳密には可測な関数は段々の定義関数の極限で近似出来るという定理があるので、これを用いる。

さて、ルベーグ積分から確率論、のp117を見ると、期待値の定義が

\[E(X) = \int _{\Omega} X(\omega)d P(\omega)\]

というのが出てくる。オメガを取り払うと同じ式かな？という事でこの式の意味する所を考えよう。

もともとルベーグ積分は、測度をmとすると、\(\int f m(dx)\) と書いていた。なんでdPになってるのだろう？

と思ったが、この本の2.3.10より後を見ると、割とP-measureによるたんなるルベーグ積分になってるな。じゃあそういうもんだと思っておくか。

Lebesgue-Stieltjes F-measure

しれっと定義が2.3.9あたりで出てくるが、その後2.3.13の後に略記の話が出てくるので、ここにまとめておく。

ある閉区間[a, d]の上に定義された、非減少関数Fで、F(a)=0, F(d)=1となるFがあった時に、大雑把には

\[P_F [b, c] = F(c) - F(b)\]

を、ジャンプまで含めてちゃんと定義した測度が考えられる（2.3.9）。なお、シグマ集合族はこの場合ボレル集合族となる。

さらに、

\(\int _A f d P_F\)は、\(\int _A f d F\) と略記する。

3章 metricとかの話

3章は集積点だとかの集合的な用語の定義とmetricの定義などが並ぶ。

ぶわーっと出てくるので初見では辛いだろうが、この前関数解析の入門動画を見てた時にこの辺は一通りやったので、まだ結構覚えている。

weak metric transformとmetric transform

Def. 3.2.1のあたりで、いろいろ定義が一気に出てきて追うのがつらくなってきたので、ここにメモを書く。

ある距離空間から別の距離空間に移す変換についての話。

1の側にmetricが定義されてるとして、 fがweak metric transformとは、ある一対一関数の\(\phi\) があった時に、

として定義した\(d_2\)がmetricとなる事を言う。

さらに順序が保存される（3.2.3）時は、このfをmetric transformと呼ぶ。

3.4から先が全然分からない

3.4の Minkowski Metricsが全然分からない

なんか筆記体っぽいRの定義が理解出来ず、その結果あとの記述が何も分からない。 indicatrixとは何かも分かんない。

3.4.3はL-pノルムだよな。

3.4.1は全然分からない。仕方無いので分からないとここに記して前に進む。

3.5からは近傍系の話？第一可算公理とかの話でますます分からない。うげぇ、これは自分には無理かなぁ。

kuratowskiって名前どっかでも見た事あるのでこの辺理解したかったが、これは位相空間論の勉強が要るな。

そろそろ位相空間論を本腰を入れてやる時がきているのかもしれないが、もう少し様子を見たいので、まずは先に進んでみよう。

4章、Distribution Functions

三章の後半が位相空間論レベルが低すぎて全然ついていけなかったが、切り替えていこ。

4章はついにDistribution Functionで確率っぽい話になるし、この辺が良く分からないせいでいろいろ理解出来てない経験はしているので、モチベーションは高め。

\(F_X(x)\)の定義

良く見かける気がするので、ここにまとめておく。

R上で定義される、nondecreasingで\(F(- \infty)=0, F(\infty)=1\)な関数を、distribution functionと言う。

\(-\infty, \infty\)で左側連続なdistribution functionを\(\Delta\)と呼ぶ。

Xが確率空間\((\Omega, F, P)\)上の確率変数の時、分布関数\(F_X\)を以下で定義する。

\(F_X(- \infty)=0, F_X(\infty)=1\)
\(F_X(x)= P\{ \omega\ \in\ \Omega | X(\omega) < x\}\) … 4.1.1

また、たまに\(F_X\) は \(df(X)\) と書かれる事もある。

4.2は誤植が多い…

Lenma 4.2.2は開幕t>0で、\(J_t\)の誤植だよなぁ、たぶん。

Theorem 4.2.5の\(c_m\)は、 \(c_{m-1} < c_m < c_{m-1} + h < c_{m} + h\) か？自信無いが。

4.4 Quasi Inverse

後で出てくるので簡単にまとめておく。

fが[a, b]でnondecreasingとする。 yは[f(a), f(b)]上の点とする。

この時、4.4の冒頭の説明について。
逆写像が閉区間うんぬんは、ようするに水平な区間の場合の事を言ってる。水平じゃなければ逆像は点となる。

次に\(f^{-1}(y)\)が存在しない時を考える。

これが存在しない、というのは、ちょうどジャンプしてる間の点という事になる。 supだinfだ書いてあるのは、ようするにこれがジャンプしている点でyがその間にある点だ、という意味に他ならない。

4.4.1 Quasi-Inverseの定義

感覚的な意味を確認しておこう。

まずiは両端で逆写像になっている、と言っている。

次にii。yがRan fというのは、ようするに何かしらのxの像となっている点という事だ。だからこの元となっているxがあるので、この場合は水平じゃなければ逆写像となっている、という事を言っている。水平の場合はこの範囲のどこか、という事。

iiiはyがRan fに無い時、つまりジャンプの間のyの時。この場合は\(f^{*}(y)\)がジャンプしているxとなっている、という事を言っている。

つまりQuasi-Inverseとは、

水平な所ならそのxのどこか
ジャンプしている間ならジャンプしている点
1でも2でも無ければ逆像

という事。

5章 Associativity

各章、最後の方は応用的な話とかOpen Problemとかになっていくので、各章を7割くらい真面目にやったら、トピックだけ眺めて次に進むのが良い気がしてきたので、4章の後半は眺めるだけにして5章に進む。

そもそもこの本は最終目標じゃないので、次に進む為の道具を集められたら役目は終わるのだ。どこまでやる必要があるか分からないが、要らない、と思う所まで進めてみよう。

5.1.1周辺のメモ

vertical sectionとhorizontal sectionが出てきたので、復習しておく。これこ定義は2.4.2にある。

SxS上で定義されたbinary operationであるTにおいて、任意のSの元aについて、aに置けるTのvertica sectionとは、

と定義される関数 \(v_a(x)\) の事である。

さて、これを踏まえて5.1.1は成り立つか？

という事なので成り立ちそうな気はするね。証明はまぁいいだろう。

5.2.1の定義周辺（半群の生成）

半群: 逆元の無い群。定義は5.1にある。具体的にはS上のbinary operationであるTが、associativityを満たしている時、(S, T)を半群と呼ぶ。

2.1.2にQuasi-Inverseの一般的な定義がある。gがfのquasi-inverseなのを、\(g[Q]f\)と書く。

さて、5.2.1のうち、ivとvがややこしいので、iからiiiまでの状況をまず図解する。

さて、ivはこの\(T_1\)の先が必ずRan gの輪の中にある、という意味だ。これは分かりやすい。

vが良く分からん。あとの証明と比較して考えると、ちょっと分かってきた。これはaは一つなのか。

\(T_1\)の先でRan gの輪から出てる所をfで移すと、必ず同じ点aに移るという事かな？で、しかもこのaに行けるのは

輪の外の\(T_1\)の像から
\(f(u) = a\)か\(f(v) = a\)となるuかvを使った\(T_1(u, v)\)からか

のどちらか、という事か。

5.2.1はようするに、gで移した先で\(T_1\)を適用しfで戻す、と言っている。これでもassociativityが保たれる為の十分条件として、ivかvが要る、と言っている。

ivの場合は簡単で、それにvという拡張も加えられる、という事かね。vははみ出た部分については結構きつい条件なので、見た目ほどすごい定理でも無いが。

vというこんなややこしい条件をつけてるのは、応用的な意味があるのだろうな。

5.2.2 generatedの定義

重要そうなので書きとめておく。

\((S, T_1)\)が半群で、f, g が以下の3つの条件と、4か5の条件を満たす関数の時、

Ran gはSのサブセット
Ran g内の任意のu, vについて、\(T_1(u, v)\)が Dom fの中
f[Q]g
Dom g上の任意のx, yに対して、\(T_1(g(x), g(y))\)がRan gの中、または
Ran fの中にaで、(\(f(u)=a\)か\(f(v)=a\)か(u, vがRan gだが\(T_1(u, v)\)がRan gじゃない))のどれかが成り立つ時はいつでも \(a = T_1(u, v)\)となる物が存在する

時に、Dom g上のbinary operator で以下のようなTを定義すると、

(Dom g, T)は半群となる。（Theorem 5.2.1）

この時、Tは\(T_1\)からペア(f, g)によってgenerateされた、と言う。

ふむ。

ordinal sum

5.2のもう一つのトピックとの事なので軽く見ておく。だが5.2.4の定義がまた分かりにくい。具体例があると良いのだが…

二番目の条件から、一番目の \(S_{\beta}\) はnull element一つ、という事だよなぁ。と言っても要素が一つならnullであると同時にidentityだと思うが。

だが大小関係はいまいちよく意味が分からない。あくまで交差の部分だけの条件に見える。nullとidentityの違いがあるが、それの意味する所はいまいち分からないなぁ。

まぁいい。以上を踏まえてordinal sumの定義、5.2.5を見ると、

Tは所属する\(S_ {\alpha}\) の \(\alpha\)が小さい方を返すオペレータに見える。同じ時は\(T_ {\alpha}\)にfall backするような。

5.3 閉区間上のAssociative Functions

5.3.1と5.3.2が基礎となる条件で、それにいろいろ組み合わせるのだが、ややこしい。まずこれを書くか。

5.3.1が順序を保存する、という事で、5.3.2は右端では単位元になってる、という事だな。

これだけで減少していく二項演算な事が決まるらしい。5.3.5はまさにその表現だな。

さらに以下の2つを足したものがシータの定義らしい。

5.3.7はLemma 5.3.7の所で使ってるが、その心はなんなのか。

次のArchimedianを考えると少し分かる。デルタを適用すると少し小さくなる訳だが、これを大きい値から延々と繰り返していった時に、どんどんxに近づいていく訳だな。

で、ここでジャンプがあると、いつまでたっても右側極限ではこのジャンプまでたどり着かないから、アルキメデス性が満たせない場合があるのか。

5.3.8はxに収束するようなケースを扱う時に、ちょっとずれても大きな変化が無いって事だよな。まぁ分かる。

5.3.6 Archimedean

あとの方で出てきてたArchimedeanの定義が出てきているので確認しておこう。

5.3.1と5.3.2を満たすTで、任意のx, yで、xを死ぬほど（Tで）指数乗すれば、やがてyより小さくなる、という話。

5.3.1と5.3.2を満たすとデルタは小さくなるので、aまでたどり着けるなら自明だな。

Wikipediaとか見ると、2つの実数x, yがあって、xを足しまくるとやがてyより大きくなる、と言っている。大小は逆だが同じ事だろう。

5.3.8に見る、ordinal sumの具体例

5.3.8でordinal sumの所の良く分からない定義の具体例が分かる。

nondecreasingな物を対象にしていると、有限個の互いに点しか共有しない閉区間や開区間に分割出来て、共有部分は下の区間から見るとeなのでidentity、上の区間から見るとaなので、null要素となる（5.3.3参照）。

という事で、ordinal sumの交差の条件は、感覚的にはこのジャンプがある所での閉区間の分割に相当している訳だな。

ではordinal sumで定義されるTは何か、というと、区間内は\(T_{\alpha}\)を使って、別区間同士の時は小さい方の区間を返すbinary operationという事になる。

aがnullになる事を思えば、それを越えたさらに小さい物がnullになるのは自然に思う。そういう点では左の端点を延長した感じになってるんだな。

5.4 ArchimedeanのRepresentation

追加の条件を2つほどつけると、簡単な形でTが表せるらしい。証明は長いが、結果だけ知っておけばいいかな、という事で結果だけ書いて次のセクションに進む。

定理5.4.1:

系5.4.2として、5.4.1ならTは連続で可換。

さらに系5.4.4では前の結果と合わせて、シータで連続な関数は可換、も言えるらしい。へー。

なお、5.4.7は可換の式（あとで良く出てくるのでメモ）

5.5 T-norm

定義は5.3.1、5.3.2、そして5.4.7(可換)、の3つを満たすI上のassociavive binary operation.

図5.5.1は何を言ってるか全然分からない。とりあえず進む。

定義としては可換というだけなのでrepresentation定理の条件は満たしてない。だが、represen定理の条件を満たしたサブセットの議論が多そうなので、その為の条件を少しメモしておく。

定理 5.5.2 t-normが連続でArchimedeanなのはrepresentation定理の形で表せる時だけ（この時定理の仮定は満たすかな？少し見直したが分からなかった）

定義 5.5.3 \(I^2\)で連続で\((0, 1]^2\)のいたる所でstrictly increasingなt-normをstrictと呼ぶ。

系 5.5.4 t-normがstrictなのは以下の形で、さらに幾つかの条件がついたもので表せる時だけ（系5.4.3も参考）

5.5.6 additively generatedとmultiplicatively generated

一応軽くメモしておく。

strictだとfがgのインバースになるので、gだけでadditive generatorと呼ぶんだと。

5.5.8とかTがweakかどうかをgeneratorのsubaditivityで表してて後で使いそうな気もするが、キリが無いので使う時に戻ってこよう。

5.5.9 weakerとstronger

任意の定義域のx, y に対し、\(T_1(x, y) \le T_2(x, y)\)が成り立ち、\(T_1 != T_2\)の時、 \(T_1\)は\(T_2\)よりweakといい、\(T_2\)は\(T_1\)よりstrongと言う。

小さい方をweakと呼ぶのね。

一つのx, yの組に対してだけ成り立っていると、それだけでstronger than or equalとか呼ぶらしい。マジかよ。

5.6のExampleが面白い！

ようやく一章の話とつながった！長かった…

Minはrepresentation定理の形では表せない、ふむ。 Fig. 5.6.1でまた似たような図が出てきたので、真面目に見る。

これはx, y平面で、Mの結果をz軸にとってるのか。なるほど。この形になりそうな気がする。

さっき分からなかったt-normの図5.5.1も同じか？同じっぽいな。どう歪むかは分からんが、単調に上昇していくのだろう。

次はパイ。xyだね。これはstrictなのでgだけで生成出来て、gは-logとなっている。

お次はW。これも5.6.3みたいなgenerator で表現出来る。

ようやく何をやっていたのかが分かってきたなぁ。

5.7 t-conormとcomposition law

composition law Lとt-normの違いは定義域のみに見える。LはR+。

6 Coupla

そろそろ本題に辿り着いて欲しいのに、まだ下準備が続く…
まぁ頑張ろう。

さて、なんか6の冒頭は誤植が多くて、…が大文字のデルタになってる。

sgnとボリューム

一つ一つは簡単だが、少しあとで混ざりそうなので簡単に書いておく。

まずBがn-boxとして、cが頂点とする。 sgnの定義は以下:

次にH-volumeとHがn-increasingの定義。

まず、HはRのサブセットの\(A_k\)の直積からRへの写像。Aはn-boxとかじゃないらしい。

で、あるBの全頂点がDom Hの時に、Volumeが定義される。別にBの中がDomじゃなくてもいいらしい。へー。

で、H-volumeの定義は以下:

さらにHがn-increaseとは、Dom Hに頂点が全てある任意のBについて、H-volumeが0以上、との事。

具体例の計算

さて、パイスターの場合の答えが載っているので、計算してみよう。

まずパイスターがnondecreasingなのを確認する事から始める。

ふむ、nondecreasingだね。次にこのI2のボリュームを求める。

確かに-1となっているので、定義により2-increaseでは無い。

次に-1から1でxyのケースを計算してみよう。まず、ボリュームは、

これは正か？eが正の場合と負の場合があるので、そんなに自明でも無いような。

少しいじってみよう。

お、これはいつも正だな。なるほど。

n-increaseとはなんぞや？

さて、後者の例で、ちょっとどういう物かのイメージが湧くな。

n-boxのe側の頂点とa側の頂点の差を足したら正になる、eとaが混ざるのは善きに計らって考慮に入れる訳だ。

つまりイメージ的には\(a < e\)の順序を保存する写像みたいな感じだよな。間はよきにはからって考慮に入れるのでここまで単純には書けないが。

6.1.4 groundedの定義について

ここで出てくるaはAの最小元であって、boxの端点じゃない事に注意。つまりHの定義域だな。

1次元margins

確率的に重要と思うので、定義を書いておく。 \(A_m\)が最大限\(e_m\)を持つ時、Hはmarginsを持つという。

そして一次元margins \(H_m\)の定義は以下となる。

ようするにm番目以外は全部eなHだね。

eを埋めない部分を複数にする事で、多次元マージンも定義出来る。

6.2 Joint DistributionとCoupla

ようやく6章の本題に到達。

n次元distribution function

以下の条件を満たすHをn次元distribution functionという。

\[Dom\ H = R^n\]
Hはn-increasingでgrounded
\[H(\infty, ..., \infty) = 1\]

joint distributionはHで、2以上のnでn-d.f.となるもの、とある。 joint distributionとn-d.f.の違いはいまいち分からないが、まぁまずはいいだろう。

分布関数がマイナス無限大で0、無限大で1の関数だったので、割と自然な拡張に思う。

一つでも下限なら0、はjoint probabilityの累積分布関数と思えば自然（一つでもゼロな要素がある同時分布はゼロだろう）。

n-increasingは解釈が難しいが、lemma 6.1.8から、特定の変数だけの範囲を広げると、実現確率が増える、という事だよな。

で無限大で1は全部積分すると1になるのに相当するので、わりとわかりやすい定義と思う。

couplaとsubcoupla

さて、本題っぽいcouplaの話に入るが、まずsubcouplaという物の定義から入る。

以下の条件を満たすC’を、subcouplaと言う。

domainがIのサブセットじゃなくてI全体の場合、couplaと呼ぶらしい。

n-d.f.と似ているので、違いを見ておこう。

まずdomainがIのサブセットになっている。Rでは無いのね。

で、marginがidentityになってる。

ふむ。ちょっと何を意味するのか、この時点では良く分からないので、先を読んでいこう。

6.2.4 couplaとjoint d.f.の関係

定理6.2.4は強力だな。任意のjoint distribution functionは、マージナルを引数とするsubcouplaで表せる、と。

感覚的には信じがたいな。マージナライズしてしまうと同時分布の情報は失われてしまう訳で。

ただ、6.2.4を見ると、ようするにsubcoupla自身が同時分布みたいな物なのか。

言っている事は、HのサブセットでHを再現出来る、と言っているんだな。イメージとしては、IをFのマージンを使ってR全体に射影すれば、DomがIの関数をHに拡張出来る、と言っている。それはまぁそうか。

6.4 copulaのdual

定義はCが2-copulaの時、以下:

dualはI上のbinary operationで、0がnull、1がidentityで連続でnondecreasing、までは言えるが、2-increase では無いらしい。

M, パイ、Wの結果が6.4.2に書いてあるので、計算してみよう。

Lemma 6.3.1によると、Wは2-copulasの中で最小らしい。つまり一番weakという事か。

ひとしきり納得。なお、Mが2-copulasでstrongestだとか。

6.5 CopulasとRandom Variables

n-d.f.やn-Copulasによる積分がさらっと書いてあるが、さっぱり分からないので、ここに少しメモを書いていく。

まず6.5.1はLebsgue-Stieltjes確率測度の、n次元版の定義なんだな。なんで成り立つか、というよりもこれが定義、と。

比較の為並べて描いておく。

6.5.1は、これがたぶん定義なんだよな。

さて、まずこいつは測度なのか？任意のn次元閉区間で定義はされてる。まぁ開区間でも定義出来るだろう。

厳密な定義はおいとけば、あるboxを分割した時に、メジャーの和になってれば、まぁまぁ納得出来る。

こんなケースで分割した場合と全体の場合が一致してればいいだろう。

見てみよう。まず全体。

次は左と右を個別に求めて足したもの。

間の点のsgnは、片方で正の場合、もう片方では負となる。ふむ。これなら任意のboxのorで定義されるvolumeは、個々の和になりそうな気がするね。

さて、こうしてあるCやHがあればそれに対応した測度がVolumeで自然に定義出来るのは分かった。

その時、その測度での積分を、元のCやHを使ってdCやdHと表記する訳だ。

6.5.2や6.5.3はVolumeの定義やHの定義から立ちどころに明らか。

gのHによる積分について

6.5.4では、gをdHで積分してる。この表記の意味する所を考えよう。

まずHがあると、それに応じた確率測度が考えられるのはさっき見た。で、その測度でgをルベーグ積分する訳だ。

感覚的にはgの定義域を細かいn-Boxに分割して、このvolumeと真ん中のgの値をかけた物を足し合わせる訳だ。

簡単の為、一次元に戻って考えよう。 Fで定義されるメジャーっていうのは、累積分布関数の差分だから、この区間に入る確率だよな。すると、これは期待値を計算しているのか。

お、つまりこれ、多次元の奴も期待値になってるんじゃね？ちょっとここだけじゃ結論出来ないけど、とりあえずそう考えておこう。

追記: dCとかの積分は、リーマン=スティルチェス積分というのがあって、その一般化になってるっぽい。へー、知らなんだ。ただリーマン=スティルチェス積分というのは確かにこれをもっと狭い範囲で定義した物になってるね。

確率変数とjoint distribution function

6.5.5は定理とかじゃなく何気なく書かれているが、結構重要な気がする。

確率空間上に確率変数Xがn個定義されてるとする。この時に、以下で定義されるH

は、n-d.f.になっていて、これをX1, X2, …, Xnのjoint distribution functionと呼ぶ。

初めて確率変数との関係が出てきた。で、あるRnのxベクトルに対し、各確率変数がxベクトルの要素以下になるような標本の集合の測度としてHが定義される。確率測度Pは最初に確率空間としているから所与。

こうして、確率空間と確率変数が与えられた時に、joint distributionが定義出来るようになった。ちょっと感動である。

さて、これがn-d.f.になってる事を軽く見ておこう。

まず無限大で1なのは、全標本空間となるので良かろう。 n-increasingもオメガの範囲が単調に広がっていくだけなので良かろう。

groundedはどうか？確率変数の像が有界なのは過程出来るのかな。で、その時、その最小限より小さいxについてはオメガは空集合となるのでゼロ、つまりgroundedと言えそう。

うむ、n-d.f.にはなりそうだね。次にマージナルも考えておく。 xがあるk番目の要素以外は無限大の時、それ以外の条件はboundされないので、Hはxkの分布関数となりそう。うむ。我らの知っているjoint distribution になってそうだね。

6.5.2のコピュラについて考える

さて、joint d.f.が定義出来たのでn-subcopulaとn-copulaが定義出来る。これはどういう物か、軽く考えておこう。

まず、Domは\(I^n\)だ。 0から1の範囲で、その各引数をFのQuasi-inverseで戻したjoint d.f.に一致する。つまり、それぞれのランダム変数が、何割くらいに収まってるかの条件をわたし、その実現確率を返しているんだな。

感覚的にはFからxが再現出来ればcopulasとjoint d.f.はほぼ同じ物になりそう。

ようやくcopulaが何なのか、解釈できた気がする。

6章、読み終わった〜〜！

いやぁ、6章はきつかった。しかも結構ちゃんと理解出来た。読み終わって凄い達成感ある。大分この分野に詳しくなった感じあるなぁ。ここまで抽象的に定式化してるの、初めて見たよ。

1970年代とかに作られてる定理が結構出てくる事から、相当新しい分野なのだろうなぁ、という気がする。

次の7章も相当ゴツそうだが、ここを乗り切れば念願の確率分布の距離空間に辿り着く！一章だけなら頑張れそうな気がする！頑張るぞ！

7章、triangle funltion

triangle functionって実は初耳なんだろうなぁ。三角関数っぽいが全然関係なくて、\(\Delta ^+\)上で定義されてるbinary operatorらしい。

いまいちこの章が何をやるのか理解出来ないが、はしがきによると7章までが下準備で8章から本題、との事なので、なんとか踏ん張っていきたい。

triangle functionの定義

まずは定義から。Definition 7.1.1.

triangle functionとは、

との事。

t-normとの違いを見ておくと、t-normはI上で定義されている。一方でtriangle functionは分布関数のはる関数空間の上で定義されている。

定義7.1.3では実はちょっと字体の違うTが2つあって、別の意味で使われてるな。

I上のbinary operatorから、分布関数上のbinary operatorを定義している。実質カリー化くらいなもの。

で、これを用いてt-normとの関係をいくつか議論している。left-contiuousを足すとこれからカリー化っぽく作る高階関数は、triangle functionになる、とか。

末尾のNoteを見るとtriangle functionの定義に、F, Gが連続なら合成結果も連続、が抜けてるとかいう話もあるので、あまり深入りはしない。

感覚的にはだいたい同じ物、という事だよな。

TとLの定義

使いそうなのでメモしておく。

まずはTから。Definition 7.1.5

I上で定義されてるbinary operationで、nondecreasingで、1がidentityな物の集まりを、\(\mathscr{T}\)と呼ぶ。

このなんか読めない字、花文字というもののTっぽい？ mathjaxで出るのかな…

associativeとは言ってなさそうなのは珍しいかな。1がidentityなnondecreasing、ありそうで無かったかな？

次は \(\mathscr{L}\) の定義。Definition 7.1.7。

\(\mathscr{L}\)は\(R+\)上で定義されたbinary operation Lの集合で、

Lの値域が\(R+\)全体、つまり上への写像 (7.1.5)
Lは各点でnondecreasing (7.1.6)
Lは\((0, \infty)\)と\((\infty, 0)\)を除いて連続

を満たす物。

7.2. \(\tau_{T, L}\)

まずは定義から。Definition 7.2.1

7章はいまいち何をする章か分かってなかったが、こうやってbinary operationを組み合わせて定義される、デルタ+上の高階関数としてのbinary operationであるタウの性質を調べる章なのか。

Lemma 7.2.3がしょっぱなから分からない

L(u, v) = 0ならuかvが0、まではいい。で、FとGは定義から、F(0) = 0なのもいい。

問題は、T(0, x)が0、という所。これが成立しないと証明の最初の所が言えない気がするが、これが成立する理由が分からない。これは何から言えるのだろうか？

なんか前似たようなの見たなぁ、と読み直してたところ、5.3.3に似ている事に気づく。

5.3.3はassociativeな時の話だが、本質的には5.3.2が成り立てばこのxにaを入れる事は出来る。

で、a がゼロなのでT(0, 1)は0だ。あとはnondecreasingかつ下限が0なので、任意のxについてT(0, x)は言えそう。

よしよし。分かった！

7.2.4は追うのが辛いので流し見…

\(\tau_{T, L}\)がtriangle functionになる条件、という割と重要そうな定理だが、associativityのあたりで辛くなって挫折。identityまでは頑張ったが…

結果と雰囲気だけ見て次に進もう。

定理7.2.8の為に、Modified Levy metricを見直す

7.2.8で出てくる\(d_L\)はmodified levy metricらしい。4.2で定義されている。

これは見た時よく意味が分からなかったのだが、ここらで頑張って理解してみよう。

4.2.1の不等式をそのまま図解すると、以下。

ふむ、つまり、xの前後hについて、Fで矩形を作って、それの上と下をさらにhで広げた物の中にGが入る、という意味だな。

そしてこれが-1/hか、1/hの間で成り立つ、難しいね。

xはいつもゼロのそばで定義されている。で、その幅がhが小さいほど広い範囲で成立する事になる。

F, GはR全体で定義されてる事を思うと（R+じゃないのに注意）、0という点に意味は無いと思うので、なんか不思議な定義だなぁ。

hが小さいほど上記のboxは小さくなり、かつ成り立たないといけないxの範囲は広くなる。

具体的にちゃんと想像するのは難しいが、感覚的にはこれは分布の距離になってそうな気がするね。

小さいと2つの分布はほとんど一致するだろうし、大きくすればどこかでは条件は満たすだろう。

例えばFとGが、10くらいまでずっと小さい値で、10から全然違う風に動いても、この違い具合はあまり距離には反映されない気がする。

すっごいマイナスの方で全然違う場合も反映されないが、0から見たある程度の範囲で近いものを近い、とみなすのは、まぁ意味は分かる。

なお、4.3にはデルタ+での定義の話が。こちらの方が我らのケースには関連が深く、想像もしやすいね。0に意味があるので。

関係ないが4.3.1のdistance distribution functionとは、デルタ+上の分布関数の名前だったか。そんな定義がされていたとは。

名前から想像するに、これは距離の分布関数の事なんだろうなぁ。距離も確率変数も出てこずに定義されるので不思議な感じはするが。

Lの追加条件まとめ

Theorem 7.2.4で出てくるLの追加条件は、あとの方でも良く出てくるのでまとめておく。

Lに、さらにcommutativityとassociavityを仮定し、さらに、以下が成り立つものを考える事が多い。

7.3から先は流し見

7.3は、ここで定義する演算は14章まで登場しない、との事なので、軽く眺めるくらいにしておく。

スターは0がidentityなもので、7.3.1はinfな所がスターじゃない奴と違う。少し条件を加えたt-conormから作るとtriangle functionとなる、と。

7.4はconvolutionの話だが、結果が並んでるだけなのでこちらも眺める程度に。これはtriangle functionにはあまりならない、というのが他と違うね。

7.5も同様か。リプシッツ条件を満たす関数群Cに対して、Cバーで定義される所がこれまでとの違いか。
ただ、何にせよ系7.5.3が結論で、これもtriangle functionになる。

7.6 Darivable

7.6.1の定義からして分からないが、このtはタウの誤植じゃないか。

そうだとして考える。タウがderivableとは何か。

タウはまず、デルタ+上のバイナリーオペレーション。つまり2つの関数を合成して新しい関数を生み出す。

で、タウがderivableとは、デルタ+に対応した確率変数X, Yを考えた時に、この2つに対する二項演算Vの分布関数が、タウによる合成と一致するようなVが見つけられる事だな。

この7.6.1の直前にもあるように、例えばconvolutionは確率変数の和に対応しているので、タウがconvolution、Vは足し算となる。

そして証明はおいといて、7.6.5から、分布関数で分かることは確率変数と対応づかない事がある、との事。

うぇ？まじ？それじゃあ分布関数上でわかる事に意味はあるのか？

うーむ、良く分からないなぁ。

7章終わった〜〜！

7.8のConjugate Transformは良く分からない上に使いみちも分からないので、今回は眺めるだけ。必要になったら戻ってこよう。

という事で7章終わった。7章もゴツかった…
いやぁ、でも8章はようやく本題なので、このまで辿り着けて嬉しいぜ。ここまで、結構頑張ってくらいつけてるんじゃないか。

これはノート環境の進歩のおかげでもあるなぁ（このブログ）。やはりローカルでflingでぐわーっと見直せるのが良いね。

さて、ようやくProbabilistic Metric Spaceに入るぜ。ここまででも、どうもこれは自分の思ってた物と違いそうだ、という気はしてきているが、果たしてこいつはなんなのか？なかなか楽しみ。

8章、Probabilistic Metric Spacesまで来たぞ！

さて、長かった前置きが終わり、ようやく本題の8章である。なお、略はPMらしい。パーフェクトソルジャーっぽい！

さっそく定義を眺めると、Sはnon empty set。これはいい。で、タウは合成する高階関数だよな。で、花文字のFは、SxSからデルタ+への関数？
何これ？

デルタ+の元、というのは、距離の分布関数なのかな。

つまり、pとqの間の距離が確率分布してる、という事を表しているのかね。普通の距離は、SxSからR+への関数だが、これのR+が分布関数に置き換わってるのか。

Probabilistic Metric Spaceとはなんなのか？

さて、定義をようやく理解出来た訳だが、これは自分が思ってたのとは大分違う。それは薄々そんな気はしていたのだけど、今ようやく何が違うのかが分かった。

自分が期待してたのは、確率分布同士の距離、なのだよね。でもこれは、距離の対象は確率変数では無くて、距離が確率分布している。

で、距離が確率分布する場合、もちろん通常の三角不等式は成り立たない。そこでそれをどう拡張したら良いだろうか？というのがMangerの不等式とかで長々と議論していた事だったのだ。なるほど。

これは一見すると全く違う事のようにも思えるが、一方で同じ話のような気もする。

例えばパスタの画像をGANで生成する場合を考える。で、generatorはいくつかのサンプルを生成する。この時、このgeneratorとパスタとの距離とはなんだろう？

画像の集合が母集団だとしよう。で、サンプルは画像だ。ではパスタとは何か？これは確率測度で可測な実数への写像、という事になるか？

そもそも確率変数とは何か？

定義は、Rへの写像でP可測な関数、という事になるだろう。 P可測、というのは、R上での可測な集合の逆像が可測、という事になる。

これはつまり、例えば確率変数をXと置くと、Xで表した可測な集合、例えば身長なら 165＜X＜170、とかが、その逆像がP可測だという事だ。

つまり感覚的にはXの世界で、開集合とかで包んだ時に、それを成立させる母集団の元をPで測れる、という事だな。こうして、身長が165cm以上170cm未満の人の確率、などが議論出来る。

パスタは確率変数たりえるか？

さて、上下関係とかの順番は置いといて、全ての料理の種類に整数を割り振る事は出来るだろう。

こいつの部分集合を適当な開集合で覆った時、それの逆象はP可測には出来る気がする。離散なので気分は悪いが。

例えば期待値とかは計算出来るが、意味は無いよな。何かしらのembeddingsを計算して、このemedding space 上でならもう少し意味のある確率変数になるかもしれないが。

パスタと蕎麦の距離とPMの関係はあるのか？

さて、話を戻して。ちょうどこの前書いた論文でこの辺の定式化はやったので、多分自力で考えられそう。

生成モデルで画像が生成されるとして、条件付き確率として、種別がパスタの時の分布が考えられる。これと、蕎麦の条件付き確率の分布があった時に、この2つの距離を考える、というのが分布同士の距離だ。

一方でPMは定義を眺めると、2つの、別に確率分布してない要素同士の距離が確率分布してるのだ。これはどういう場合だろう？

t-SNEみたいなもん？とマストドンで言われて、そうかも知らん、と少し見てみたところ、tかどうかは所詮近似の問題なので、HintonのSNEの元論文が参考になりそう。

もと論文の式1、つまりpijの式は、確かに確率分布してるように見える。だが、 dijは確率分布してなさそう。

pijというのは、iがまず与えられて、このiのneighborとしてjが選ばれる確率、と言ってる。

neighborとは何か、という定義は無いが、ある種の距離で近いほど選ばれる確率が高いような仕組みになってて、しかも全相手に対しての和をとると1になる、つまり確率になってる。

なるほど。あるiとjがあった時に、これが一番近い、と選ばれる確率、みたいなのを考えると、これは確率分布する場合が考えられるか。これでは距離が分布する訳じゃないけど、この「一番近い」を一般化して近さを実数に広げればそれっぽくなるな。

何かしらの古典的な距離が与えられた時に、それをパラメータとして確率分布するような値が与えられると、このPMスペースのFのようになる訳か。

この考え方を、画像のカテゴリとかの距離の例で適当に考えてみよう。

まず、2つの画像があったとする。この2つをembeddingにして距離を測ろう。この距離を元に、2つの画像のカテゴリの近さを考えてみよう。ただしカテゴリというのは与えられるんじゃなくて、なんか学習していく、良く分からないベクトル値とする。カテゴリというか、その画像は「どういう種類の画像か」みたいな値としよう。

一般的にはembeddingsが近いなら近い概念になるが、たまに全然違う物が偶然近い値になる事もある。

また、離れていくと違うカテゴリな事が多いが、たまに画像としては全然別だが概念的に同じ、という場合もある。

これは距離を元にした何かの分布で定義出来る気はするな。

本質的には古典的距離を経由する必要は無いよな。 2つのembeddingsから、直接距離の分布への関数を考える事は出来るだろう。この分布は、ようするにその2つのembeddingsが持つ情報の不完全さみたいなのを表す訳だな。

PMは自分の知りたい事と関係があるのか？

だいぶPMとは何か、という事は分かってきたが、これは自分が学ぼうと思ってた事とは、現時点では違いそう。

だが、本質的には7章までの内容は、triangle function以外は、実解析による確率論の定式化に過ぎないので、ここまではやっておく価値はあった。

あと、全然関係ないか？というとそうでもなくて、むしろたぶん本当はPMで定式化すべき問題が多いが、誰もやってない（そして可能かも良く分からない）という感じに思う。
そういう事ってあるよね。線形回帰のregularizationとかベイズで扱うとpriorになってるけど、そんな理論はおいといて使える分類器使う為にパラメータいじってるだけ、みたいな。

一見良さそうだが理論的に定式化しようとすると何も出来ない、というのは良くある事なので、そちらの研究をする気が無いなら誰かがやるまでほっもいた方が良さそう。

でも、確率変数の所までは進めたい気もする。そこまで進めばこちらの分野の、実世界とのつながりの概要はだいたいつかめるので。また、こうした話を通して確率論自体への理解も上がるしね。

もともと、The Methods of Distances in the Theory of Probability and Statisticsが全然分からん！（挫折）で読むべき本が全然理解出来なかったのが始まりなので、基礎の所の理解を深めるのはそれ自体が本当の目的なのだ。

幸い、PMは自分たちが必要とするより一段上の抽象的な話なので、この分野に登場する様々な事を一つ上の視点で把握するのに役に立ってくれそうな気はしている（願望）

8.1.12を少し考える

8.1.12は、つまり古典的な距離となる訳だよな。この時、PM Spaceの三角不等式に相当する式は、

ふむ、つまり普通の三角不等式になるという事だな。

properってなんやねん

読み進めてみたら、唐突に登場してる気がした。まずググってみる。

mathematics stack exchange

有界な閉集合がコンパクトな事か。なんかあったかもなぁ。

教科書を少し戻ると、定義があった。定義はDef. 8.1.4か。
なんか全然関係が分からないなぁ。ただ8.1.9は意味は理解出来そうな気がする。

8.1.9式を考える時、距離の分布関数が大きい、というのは、より早く、小さい距離で立ち上がる、という意味だよな。

a+bの所で立ち上がるステップ関数よりは大きい、というのはどういう意味だろう？タウはa+bで立ち上がるよりはマシな合成を作れるという事だと思うが…

うーん、いまいちイメージがわかないな。とりあえず進めてみよう。

少し進めていくと、8.1.13式の次あたりに書いてある事が本質な気がする。 8.1.13は古典的な距離空間とisomorphicらしい。という事でこれを不等式化した8.1.9、つまりproperは距離空間を含むクラスを表すのだろう。

不等式化する事で何を含むようになったのかはいまいちイメージが湧かないが、たぶんMenger space を含むようになるのだろうな。

8.2

開幕に出てくるPSMの定義が分からなかったので再掲。

PM、pre-PM、PSM、PPM

pre-PMはprobabilistic premetric space
PSMはprobabilistic semimetric space
PPMはprobabilistic pseudometric space

8.2は一通り眺めただけで次へ

いろいろ条件をつけると、Fのquasi-inverseとかが距離になっている、という話が続く。これらの距離の使いみちがいまいち分からないので、ふーん、くらいで先に進む事にする。

8.3 Equilateral Space

これはsimpleとかのからみで出てくるっぽいので、一応理解しておきたい。

まずタウがunivrsal、という事の定義がある。 PSMはもともとタウが出てこないので、タウが三角不等式に相当するものを満たせば距離空間なのは定義。
そのクラス内の任意のPSMで、って所がuniversalという言葉の意味なのだろう。

で、古典的な距離空間で一番単純なのがequilateral spaceで、これに対応するPM spaceを考える、と進む。
が、そもそもequilateral spaceって何だろう？

equilateral って正三角形とかひし形とか、全部の辺が等しい図形だよな。

と、よく見ると本文にi.e.で説明があるな。任意のdistinctな二点の距離が全部同じ、という事か。なるほど。確かに距離空間の例では、distinctだと1、同じなら0、という例が最初にあるよな。

equilateralなPSM（8.3.2）

花文字Fが、任意のp, qで同じ分布関数を返すもの、が定義か。なるほど。

Mはminなので定理8.3.3は簡単。

で、任意のt-normがequilateralなPSMではuniversal となる、と。なるほど。

8.4 Simple Spaces

さて、ついにSimple。これが前挫折した本のSimpleと同じ物か、ついに確認出来る！

で、定義の8.4.1を考える。 Gというのはもともとd.d.f.だ。 d.d.f.はG(0)=0な分布関数、が定義だね。

で、それのxを距離で割る。イメージとしてはまずGの分布関数があった時に、近ければ左にぐいっと押し曲げて、遠ければ右にぐーっと伸ばす感じか。

smearは塗りつけるとかそういう感じらしい。 dをGでブレさせる訳だね。イメージは湧く。

その後の話もだいたい理解出来るね。よしよし。

8.5以降は眺めるだけ

8.5はヒステリシスとか。全然興味無いので飛ばす。

8.6はα-Simpleだが、Simpleが分かってればほぼ自明だし面白い結論はほとんど無い、という残念な話なので眺めて終わり。

8.7はBest possibleなtriangle functionを探す、という事でトピックは面白いが結論はあまり分かってない、という感じでしょんぼり。 strongerは大きい方、という定義を確認しておく。

8章を読み終えて

一通り何を議論してるかは追えたと思う。なるほど、これがProbabilistic Metric Spacesか。

ここからはこれくらいの理解度で良かろう。議論のトピックを追うくらいなら、ここまでちゃんと進めてきていればそんな大変じゃないので、確率変数周辺まではやっても良い気がしてきている。

この本のSimpleは、The Methods of Distancas in the Theory of Probability and StatisticsのSimpleとは違いそうかな。向こうの定義はまだ理解出来てないが。
やはり別の事をやってるようだ。ただ結構近い話なので、まったく無駄という気もしない。良かった。

9 Random Variable

ここまでの距離が確率分布する時の定式化は、確率変数とどう関わりがあるのだろうか？これは少し興味の湧く所なので、その位は理解したい。

9.1 E-space

L1(I)の定義はI上で、a.e. 有限でmeasurableな関数の集合。

式9.1.1は少しややこしいが、2つのランダム変数をグラフにプロットした時に、上方向の範囲が一定に収まってる範囲の横軸の測度だな。で、この一定の範囲がxで表せる。

差分がx以下の割合、という事か。

9.1.1 E-space

で、定義9.1.1のE-spaceは、文字がたくさん出てきて読むの大変だが、M, dはようするにRの一般化の事だと分かればあとはわかりやすい。
Sは確率変数の定義の一般化で、花文字のFは、確率変数同士の距離の一般化だろう（つまり上の9.1.1式をイメージすればよい）
で、以下の条件がなりたつものだとか。

iはオメガの中を歩いていって、それぞれのpとqの差を見ていき、それがxの範囲に収まってるオメガを集めて測る事が出来る、と言ってる訳だ。 9.1.1式が定義出来る、という意味だな。

ii は、その可測な集合を測った結果が花文字Fとなっている、という事だな。

もって回った言い方だが、ようするに、このiiみたいな花文字FのマッピングをE-spaceと言う訳か。
感覚的にはほぼrandom variableから距離の分布関数を定義するようなものだな。

次にタウWが出てくるが、定義は以下か？

そうっぽい。

9.1を軽く考える

さて、なんとなく9.1を最後まで読んだので、意味合いを考えてみたい。全体的には9.1.1式をちょっと拡張した話なので、意味合いを考えるなら9.1.1式を見ながら考えるで良さそう。

この絶対値を距離関数に置き換えてFが定義出来る訳だ。このFはランダム変数p, qの、「距離の分布関数」となっている訳だな。例えばこれを関数とせずに、maxをとったりすると、古典的なL-infty距離だよな。

確率変数同士の距離は、分布関数にする方がむしろ自然な気がする。なんらかの集計量にしてしまうと、情報は失われてしまうのだから。

ただ、ランダム変数の距離を関数化して、使いみちはあるだろうか？例えば何かをかけて積分したりする事はあるだろうか。
うーん、ちょっと分からんな。

話を戻すと、ランダム変数の値域の上で距離が定義されていれば、ランダム変数同士の距離は分布関数となるのはストレートな気がする。

この時、この分布関数が有る種の距離の拡張になる為には、合成がt-normのWをベースとしたtriangle functionであれば十分なのだな。

で、この「有る種の距離空間の拡張」である有り難みは良く分からない。我々は本質的には近似列が収束すれば良いのだよなぁ。で、出来たら微分が分かると嬉しい。

この辺との理解をつなげるのはなんか最先端の学問領域っぽいな。上に述べてる結論も1977年とかに証明されてる話っぽいし。

ただ、この距離が確率分布する空間が、結構自然に出てくる範囲な事は分かった。
これは、一つ、この本を学んだ結論だろうな。

9.2 pseudometrically generated spaces

定義を見ると、dオメガがMとかdと関連している事は仮定されてない。そもそもSはrandom variableという保証も無いな。

これは定義9.2.1の前に書かれているrandom variableを元に定義した物と、同じ空間だろうか？

あー、そこでこれらが同じ、というのか、次のSherwoodの定理か。へー。

軽く証明とその後の結果を眺めて次に進む。

pseudometrically generatedを軽く考えておく

何も考えずに先に進んだらわからなくなったので、少し9.2に戻って考えておく。

まず確率空間がある。

で、Sと、SxSから分布関数への写像である花文字Fが、特定の条件を満たしている時、これらをpseudometrically generatedだ、という。

特定の条件とは、

オメガごとにS上のpseudometricとなるdオメガが定義出来て、
花文字Fがこのdオメガを使って9.2.2と定義出来る

定義は一般的だが、Sはランダム変数だとしてしまっても良かろう。

ランダム変数上のpmetricがあるとする。 2つのランダム変数に対し、その距離がx以下となる場合のサンプルの確率測度を花文字Fとする、と解釈出来る時、このSと花文字Fをpseudometricallyにgeneratedされた、という訳だな。

9.3 Random Metric Space

前節のpseudometrically generatedの定義では、p, qはオメガと別段関係無かった。

9.3では、そこにXpqという物を定義する事で、オメガからR+への写像とみなす。これって距離であると同時にまさにランダム変数だよな。

抽象的なランダム変数の間の距離がさらにランダム変数になっている。

さらに逆向きとして、ランダム変数として9.3.2〜9.3.4が成り立つ時、その分布関数として花文字Fを定義してやると、psuedometrically generated spaceとなり、その時のp metricは9.3.1となる。

へー。

この辺はなかなか面白いね。

なおRMはRandom Metric Spaceの略か。

で、それを踏まえて9.3.1でRMが定義されている。定義としては、Xpqがp, qに関して距離っぽくて、オメガに関して可測関数なもの、という感じだな。

uniformの定義は、どのへんがuniformなのかいまいちピンと来ないが、測度0を除いた空間で閉じてるって事なのかね。

系9.3.5はちょっと消化出来ず。ぐぬぬ。

9.4、9.5は眺めるだけ

9.4はpre-RMで三角不等式が成り立つ確率を議論してるが、問題意識がマニアック過ぎてちょっと追っかける気が起こらず。

9.5のW-spaceはRSMの良く分からんサブセットで、これまた問題意識がついていけないので飛ばす。まぁいいだろう。

9章を読み終えて

9章は結構サラサラ読める。全部おってる訳じゃないが。

で、9章のRandom Metric Space周辺の議論を見ていると、以前挫折したThe Methods of Distances in the Theory of Probability and Statisticsと、かなり重複した議論がある。

8章を読んだ時は別の話と思ってたが、これらは結局、かなり関連の深い話な気がしてきた。しかも今上の本をパラパラめくると、結構理解出来る。

9章はやってよかったな。

10章をやるべきかは結構悩みどころなのだが、少し読んでみてから判断しよう、と思っている。

いやぁ、だいぶ確率変数周辺の理解が深まったよ。

ひとまず9章まででこの本を終わりとする

10章を軽く眺めたところ、モーメント周りとかは知ってても良い気はしたが、全体的にまだこの辺の議論は要らないかなぁ、と思ったので、9章までで終わりとする。

振り返ってみると9章をやる為にこの本やってた、という気はするので、ここで終わるのは悪くない気がした。

この本の感想

当初はGANのいろいろな距離で参照される以下の本

The Methods of Distances in the Theory of Probability and Statisticsが全然分からん！

が全然分からなくて、もうちょっと基本的な本を求めて、適当に「Probability Metric」とかで検索してて見つけた本だった。

だが、今改めて上の本の該当箇所を読むと、凄く良く分かるようになっている。なので目的は達成されているようだ。

ただ、明らかにこの本は別の目的で書かれていた。そしてそれを8章に至るまで理解出来ていなかった。今は理解出来ているので、その話をしておく。

この本は、Probabilistic Metric Spaceにまつわる本だった。
Probabilistic Metric Spaceは、なんと、確率分布同士の距離「では無い」。

そうではなく、古典的な距離が確率分布したとすると、どういう空間になって、どういう性質があると何が言えるのか、みたいな話が主。

では我々には関係ないのか？というと、半分はそうなんだが、事態はそう単純でも無い。

まず、ランダム変数が何かの写像とするのは一般的な話だが、この値域で距離が定義されてるとすると、ランダム変数同士の距離は、本来確率分布しているのが正しい。

また、分布同士の距離も、分布として扱う方が自然で、そう扱うとこの本の内容となる。

じゃあGANの論文はそうしてるの？というと、私の知る範囲ではそういう扱いで議論してるのは見た事無い。たぶんどこかにはあると思うが、みんながそう扱ってる、という話では無い。

なんでか、というと、たぶんなんだけど、まだこの分野、出来上がってないんじゃないか。割と基本的でそんな難しくない話でも、証明が1970年代とかが結構あるし、割と重要な所がOpen Problemとなってるので、この辺が一通り片付かないとこの定式化に乗るのもなぁ、という気になる。

だが、私が分からなかった上記の本などはいかにもそういう事に挑んでる空気はあるので、今は過渡期なんじゃないか。

そういう訳で、学ぶのは無駄じゃないが、現時点では必須じゃないと思う。だが、この本にはもう一つ良い所があって、それは、凄く最初の所から全部説明されている、という所。

この本の内容の為には、実解析で確率を扱う、という事が必要になる。そのための準備が7章まで続く。この解説が測度論と距離空間くらいの知識しか要求してなくて、結構良い。しかもかなり網羅的に進むので、他の本を読む為の準備としてなかなか良い。

要らない事も3割くらい含まれているので無駄はあるが、W-GANの論文とかの参考文献を読んでみて絶望的な気持ちになってる人にとっては、読む事が可能でかつそこへと到れる、数少ない選択肢の一つだと思う。
もっと良い本は存在しうるが、この分野自体あんまり無いので、このあたりを頑張ってやる、というのは数少ない実現可能な選択肢である可能性はある。

なお、測度論と距離空間くらいの知識しか要求しない、と言ったが、この2つは、決して簡単では無い。普通の院卒のプログラマ程度では手も足も出ないだろう。
この本を読むには、相当の事前知識は必要だ。
それでもこの分野の他書に比べると、圧倒的に少ない。

という訳で、実解析で確率を扱う流儀の入門としては、凄く勉強になった。この本はそのための物では無いが、その目的で使えた。

また、割と近い将来にはProbabilistic Metric Spaceでこの周辺を扱う可能性は十分にあるし、そうでなくてもより深い理解をする為の立場として、この周辺をおさえておくのは、結構悪くない気はする。

という訳で、この一ヶ月半くらいの間、ほぼ毎日頑張って読んだこの本だが、やって凄く良かった。

もっと基礎的かもしれない次読む本

Dudleyの Real Analysis and Probability (Cambridge Studies in Advanced Mathematics)が、本来は先に読むべき本だったんじゃないか、と思ってて、

とりあえずこの本を読んでみようかなぁ、と思ってる。