Dudleyの、Real Analysis and Probability (Cambridge Studies in Advanced Mathematics)を読んでみる。

実解析ベースの確率論の入門書らしい。最初からこれやれば良かったんじゃね？という気はするが、果たして？

どこで買うか

当初は本家で買おうと思ったが、epubかADEと言われて、買う気を失う。そこでKindleにする。

まずはサンプル読んでみて、記号とか問題無さそうなら買う方向で。

序盤の集合論があまりにもだるい

なんかあまりにも初心者向けすぎて、ちょっと読みきれない。

という事でサンプル版での評価はそうそうに諦めて、普通に購入した。
8章の確率論から読んで見る事にする。トポロジーのあたりとかが必要になったら、その辺は戻って見直す、という方向で。

8 章

とりえず冒頭はだるいので適当に読み流し。この本のこの手の枕は、かえって理解を妨げる気がする。まぁ無視すればよろし。

8.1 Basic Definition

で、8.1から。

割と普通の母集団、サンプル、事象を元にした確率論の定式化ではじまる。で、普通にランダム変数が可測関数として定義される。

あれ？もっと分布関数とかを元にした、抽象的な話を期待してたのだが…
まぁまだ最初だ。もう少し読み進めてみよう。

lawって最近よく見るが日本語しらないな。まぁいい。ランダム変数の値域のボレル集合族の上で定義される、PとX^-1の合成だと。これってボレル集合族の元が起こる確率だよな。

次に、事象の独立の定義があり、ランダム変数の独立の定義がある。

昔はすぐごっちゃになってたが、今見るとこの辺の定義はおもちゃみたいだな。 2-groundedでnondecreasingでどーたらこーたらな分布関数、とかが裏にあるんだよな。今なら分かる。

全て1次元の確率空間の直積で定義されるので、marginalとかの抽象的な条件も不要。で、独立は個々の積と等しくなる事、と。ちょー簡単。
前読んだ本で実解析レベルを上げすぎたか…

indicator functionと事象の集合の独立

ふんふん、と読んでいくと、定理8.1.2の次に、set of eventsの独立が、indictor functionで定義されている。

もともと2つのイベントの独立は、前のページでAかつBのPがPAとPBの積、という風に定義されている。

だから別に任意の組み合わせで独立、という定義で良い気はするが、indicator functionがjointlyにindependentだ、という方が一言で定義出来て簡潔という事か。

両者が等しいかは自明では無いが、まぁ等しいだろうな。

8.1を読み終わって

なんか期待してたより一段簡単だなぁ、という印象。 9章がlimit theoremの収束判定周辺の話っぽいので、8章は下準備、という事なのかもしれないが。

一通りの定義が、分かりやすく短くまとまってるので、手元に置いておいて参照するのには良さそう。なんか行間も短いのだよな。そのくせ幅は狭い…

もう少し読み進めて、感想がどう変わるか見てみよう。

8.2 Infinite Products of Probability Spaces

無限の点列的な話をしようとしているように見える。

For expampleの例が長くてよく分からかい。まず、オメガは0〜9の数字が並んだ物だよな。

でxはそれを0.1、 0.01と掛けて足し合わせた物だ。

$A_k$ ってなんだ？

さて、Akからよく分からない。まず、任意の正の整数の集合は、 2で割れるが4で割れない集合、4で割れるが8で割れない集合、…みたいな物のunionで表せる、と言ってる。よくわからん。

例えばA3は何か。4で割れて8で割れない整数全体だ。正だけで考えると

${4, 12, 20, ...}$

という集合か。次にA1はなんだ？奇数だな。

${1, 3, 5, ...}$

ではA2は？2で割れて4で割れない。

${2, 6, 10, 14, 18, ...}$

このunionで任意の自然数の集合が表せる？そんな事は無いよな。

例えば3, 7という集合は、この方法では表せない。

任意の集合じゃなくて、全自然の集合か。それは表せそうな気がするな。

あー、そうか、Akは重複が無いのね。なるほど。

n(k, i)は何か。nは関数という事か。で、iはAkのi番目の要素、という事か。

$y_k$ はなんだ？

ykの定義のjはxのjから来ているのかな。簡単の為、y1を考えると、A1が奇数、

${1, 3, 5, ...}$

だったのだから、y1は

$j_1/10+j_3/100+j_5/1000+...$

という数だな。y2はA2が

${2, 6, 10, 14, 18, ...}$

だったのだから、

$j_2/10+j_6/100+j_{10}/1000+...$

か。

xを決めればjが決まるので、yは決まるな。

逆にyを決めればjの点列は一意に決まるので、この2つは一対一に対応しているかな？

まったく同じyを生成する2つのxは存在出来るか？ yが同じ為には全jが同じじゃないと駄目だから多分ムリだな。

Tというのはxからyの列への射影だな。 Tのインバースは $[0, 1]$ の上への射影なので、それの測度が考えられる

yのボレル集合族の元とかその逆元とか全然想像出来ないが、まぁ可測関数なんだろう、たぶん。

VとかWとか

PnとかVnを考えていく。もともとは、xはオメガの直積からの射影だった訳だよな。

これを逆に、0,1の範囲でxをえいっと決めて、これのxによる逆像が存在してれば、そのn番目をとるのが、 Vnのインバースだよな。

つまりランダム変数の逆写像的な物。

PnがVnのインバースとラムダで表現出来る、という事は、感覚的にはVnがだいたい全部覆うような写像になってれば良さそう。

そのあとのWは、直積した結果全体の話となってる。で、Tnの具体的な形は出てないので、これはこういう形で表現出来るようなTが存在する、という話なのだろうな。

つまり実数値から可算個の点列を抜き出して、その点列を一意に表すような実数値を作って、そいつがランダム変数でやってきたかのようにつじつまを合わせられる、と。

自明では無いが、ありそうな話ではある。

8.2.2は主張だけ理解して飛ばす

Rの定義と、それを無限に拡張しても存在する、という話。真面目な証明はゴツいが、軽く眺めると、まぁなりそうかな、という気がして来たので、飲み込む事にして先に進もう。

なんか以前もここ、飲み込んで先に進んだ気がするな。

これで可算個の積についての測度に拡張出来た訳だ。

8.2を読み終わった感想

8.1はちょろいと思ったが、8.2はやはりそんなの気のせいだった、と教えてくれた。むずい…

ただ、周辺の話の知識がいろいろあるので、昔この辺やった時よりは、大分何の話をしているかは理解出来る。

なんか具体例がかなり難しい割にさらっと書かれているので、ぱっと見た印象よりは遥かに難しい。抜けがある訳では無いが、追うのはかなりきつい。

ただ食らいつく事は出来そうなので、もうちょっと頑張って見よう。

8.3 大数の法則

ここらへんから極限定理の収束の話になりそう。

almost surelyは確率1で起こる事象。

converge in probabilityは任意のイプシロンに対して、YnとYの差分がイプシロン以上となる確率がゼロになるNが選べる、という感じか。

strong law of large numberはa.s.に収束。

weak lawはconverge in probabilityで収束する所が違う。

lim supを思い出す

さて、lim supが久しぶりに出てきたので定義を思い出す。こういう時は以前読んだ教科書から。

ルベーグ積分から確率論、p114あたり

あんまり説明無いが、頑張って考えてたら思い出してきた。

Akという事象列に対し、あるNで成り立ってても、そこより上とカツをとるので残らない。だから無限の果てでも起こり続けるAkだけを取ってる訳だな。

なおlim infは外側がunionなので、全部のカツか、そのうち先頭をいくつか抜いた物だけが入っている。

ふむ、イメージは思い出した。

いい機会なので、ついでに5.4くらいまでを軽く読み直す。昔は飛ばした所や理解出来なかった事も、今だと理解出来るな。成長を実感してやる気を出すなどする。

ボレル=カンテリの補題とかもこれだけ見かけると見慣れてくるね。

その後は大数の強法則の証明が続くが、あらすじだけ眺めて深入りはしない。

他の本と見比べると読みやすいね。

8.4のErgodic Theoremは飛ばす。

8章は下準備という事でこんなものでいいだろう。

9章収束とか中心極限定理とか

もともと以前挫折したThe Methods of Distances in the Theory of Probability and Statisticsが、この辺の話から始まってたのが本書を読むモチベーションの一つなので、頑張って読んで行きたい。

9.1 分布関数

この前読んてたProbabilistic Metric Spacesがまさにdistribution functionで定式化されていたので、この辺の話は今や見慣れたものである。むしろこの辺やった事無いのにあの本やったからあんな大変だったのね…

3章の内容が結構参照されてるので、3章も読んでも良いかもしれない。

9.1.2 ランダム変数と分布関数の関係

簡単そうなので、ちょっとこの証明を真面目に追ってみる。

Xの分布関数がF、とはどういう意味だろう。

となっている、という事だよな。では $X_F$ の定義の時、右辺を計算してみよう。

記号がいろいろややこしいが、とりあえず右辺のxはy以下と置き直す。

Xがy以下となる確率を考える。それはy以下となるようなtの測度となるので、y以下となるようなtを考えれば良い。

とりあえず細かい存在とかはおいといて雑に、y以下の上限をyと置き直して、X=yとなるtが存在すると考えよう。このtではF(y)＞=tとなる最小のyとなってるから、雑にはF(y)=t。

Pについてちゃんと書いてないが、p98の3.2.6で定義されてるmeasureなのかな。いわゆるLebesgue stiltjes measureという奴か。

tのmeasureの場合、(a, b]に対してb-aが定義か。

すると、tがF(y)以下の範囲のtのメジャーは、F(y) - 0だからF(y)となるな。

これはだいたい証明の所の式か。

厳密には段々になってる場合を考えて、上から抑える最小の元とかを考えて行けば証明出来そう。

これで、Fが与えられた時、以下で定義されるX

は、その分布関数がFとなってる事は示せた。ランダム変数になってるかは可測関数かを示さないと駄目だが、まぁなってるだろう。

9.1.3 convolutionと確率変数の和

定理9.1.3は良く出てくるが証明ははじめて見たし短いので、少し考えてみる。

まずX+Yのlawとは、元になる確率空間を仮定すると、X+Yの値域上のボレル集合族の元をBとした時、

となるような、X+Yの値域上の測度。

あー、教科書ではこのBをAと呼んでるのか。まぁいい。

X+YがBの元である、という場合、YはB-Xの元だ、と言っている。

ちょっと集合的に書いてみよう。

Bは実数上のボレル集合族の元なので、開集合を思っておけばいいだろう。

こんな感じか。 B-Xがボレル集合族の元かは自明じゃないが、まぁなってそう。

indicator functionがこの証明のように書けるのは良い。

これから結論に辿り着くのはちょっと辛いな。

直積測度の存在証明の所に似たような話があったなぁ、と前述のルベーグ積分の教科書の3.1あたりを見直す。

唐突にrebuttalとかいう用事が発生して中断してた。まずは思い出そう。

さて、定理9.1.3。X+Yのlawとは値域上のボレル集合族の元に対して、その逆像の測度だ。

で、右辺のコンボリューションはボレル集合族の元Aに対して定義されているので、対象は揃ってる。

さて、Aをある開集合としてみよう。で、Yだけに着目して考えると、YはA-Xの元、と考えられる、という話をしている。

するとA-Xの逆像のPによる測度がX+YのlawによるAの測度だな。

さて、Rkは、簡単の為に一次元を考える。 A-Xの逆像を考える時は、XはX+YがAの範囲内となりうる全ての範囲を動く。これはRの全範囲。

うーむ、独立と直積測度を使わないとだめそうなのでこの辺の復習が要るな。少しやってみるか。

4.4 product measure

4.4.3のあたりが関係ありそうな議論だ。単調族のあたりか。

という事で、この周辺を真面目にやろう。まずは昔流し読みした以下の本の3章と合わせ進める。

昔は結果だけ眺めたが、やはりこの辺の証明を追わないと駄目そう。辛たん…

3.1 切り口集合

この辺はConvolutionとかと繋がりありそうだな。真面目に読んで行こう。

命題3.2から、xによる切り口集合のyの測度による測度は、xの関数として可測らしい。

定理3.4 直積測度

直積測度の定義は3.8だ。このように切り口集合の積分で定義される。

これを踏まえて元の本のconvolutionを見てみよう。

これのGのxによる切り口集合をA-xと考えれば、convolutionには一致しそうだな。

さて、独立とは、XとYの直積のlawがこの測度の直積となっている、というのが定義だ。

で、XとYの直積のlawとX+Yのlawの関係を考えれば良さそうか？

X+YがAに所属する、とは、XとYの直積がある種の集合に属すという意味と考えられる。でもこの測度が一致するかは良く分からないな。

X+Yのlawをmと置こう。この時、m（A）はAのX+Yによる逆像のP測度による値。

これがmuとnuの直積測度に一致してればいいのだが。

直積測度はX, Yの逆像をPで測った物だよな。うーむ、これはあれか。本質的にはbinary operationとかの生成する測度空間の話か。

いや、待てよ？これは特定の範囲での直積測度と、その解析接続というか拡張の話だよな。

すくなくとも解析接続では、直積測度の一意性は定理3.4で保証されているので、このサブセットでの測度は一致するはずか。

お、分かった気がする。

densityとか

9.1はその後、densityの話となる。確率密度という奴か。

xでAの範囲を積分するとP(A)となる。

9.1.5は興味ある所だが、証明が練習問題に回されてる！えー？それは無いんじゃない？

9.1の感想

この本、分かりやすくは無いな。記述が簡潔過ぎて、行間を埋めるのがそれなりに知ってる事でもきつい。全く知らない事はお手上げに近い。

ただ、他の本をいろいろ調べながらこの本の主張を追っていく、という使い方は出来て、その扱ってるトピックは「まさにこれだ！」という内容になってる。

うーん、この本が存在している事を幸運と感謝すべきか、この本と同じ内容を扱ってる、もっと丁寧な本が無い不運を嘆くべきなのか、微妙だなぁ。

9章はまさに自分が知りたかった内容っぽいので、楽しく読めてはいる。

9.2 Random variablesの収束

この辺の話はある程度は前の本でやったはずなのだが、冒頭の説明はきつい…

定理9.2.2とKy Fan metric

定理9.2.2のKy Fan距離のあたりで、dがαで上から抑え込める、というあたりが良く分からない。

いや抑え込めるんじゃなくて、抑え込める確率は1-α以上、と言ってるのか。ああ、そうか。だからαは三角不等式を満たすのか。

9.3 lawの収束

なんかjordan decompositionとかいうのが出てくるので5.6を見てみると、signed measureとかいう話が。

軽く読んでみると知らない事なので真面目に勉強する必要はありそうだが、とりあえず今はそのまま進んで見る。

で、lawの収束を符号付き測度で簡単に定義しようとすると厳しすぎるので、任意の有界で連続な実関数の積分値がある測度の積分値に収束するなら、その測度を極限と定義するらしい。

気分的には任意のランダム変数の期待値が収束するような測度は全て同一視するという事だな。

さて、この定義では極限は一つとは限らない気がするが、補題9.3.2がmetric spaceではそれが一つと保証している。

一応簡単にメモしておこう。

これを元にXのlawの収束の話がある。XのlawはPとXのインバースの合成結果。

さて、lawが収束してもXが収束するかは分からないが、XnがXに確率収束するならlawが収束する、は言える模様。（9.3.5）

逆については言えないが、あるlawが収束する時、確率収束する確率変数列でlawがそれな奴がある、とは言えるらしい。まぁ言えそうだな。

ここから突然lawをPnで表し始める事があってややこしいので注意が要る（9.3.6とか）

9.3を読み終わって

相当ややこしい話になってるが、lawとか分布関数は相当やりこんだので、議論は追える。

そしてこの辺から中心極限定理の周辺の議論をしていくのは凄くstraightforwardなので、やる気は出る。

この辺の話題を知りたかった！という内容なので、記述は飛ばしまくりでもやはり読む価値はある。

このあとは特性関数とその一意性の話をやって中心極限定理に進む訳だが、GAN的な応用としてはむしろこの辺の理解の方が重要だよな。

そういう点ではこの本の一番読みたかった所は読み終わりつつある気がする。理解は浅いが、時間もかかってないので、悪くない費用対効果。必要になったらまた戻ってこよう。

9.4 特性関数

昔は確率論というと特性関数と中心極限定理という感じだったが、生成モデルではあんま出番無いよねぇ。

冒頭でRadon-Nikodym微分というのが出てくる。前にもこれ出てきたねぇ。よく知らないが、とりあえずもうちょっと必要になるまで粘ろう。

Pはlawと言っている。確率測度じゃないのに同じ文字を使ってる？ densityを積分したもの、となっていて、ランダム変数が出てない。

もともとlawの定義は確率測度とXのインバースの合成射だったが（8.1）、 densityの定義は積分すると何かのlawになるものだった（p284）ので、定義の順番が変わっただけで、同じ物を指してはいる。

なお、ラムダという測度が出ているが、これはなんだろう？ fがラムダで可測と言っているが、、、

わからん。さっき後回しと言ったばっかだが、Radon-Nikodym微分を読もう。

特性関数は $f_P$ と書かれていて、densityはfなのでややこしい。注意。

定理5.5.4 Radon-Nikodymの定理

まずp174に、absolutely continuous with respect to μ、という言葉の定義が書かれている。

同じ可測空間X, S上で、2つの測度、muとnuがあった時、mu(A)がゼロならnu(A)がゼロ、が言える事らしい。

一応式で書いておこう。

ニューがabsolutely continuous with respect to μとは、

という事。

なお、singularは別のゼロ集合が存在する、みたいな意味らしい。

で、ここでmuとfが所与の時にnuを以下のように定めると、

このニューはabsolutely continuous w.r.t. ミュー、な測度となる。

そりゃそうだ。で、Randon-Nikodymの定理はこの逆、つまり、absolutely continuous w.r.t. ミューな測度ニューがあったら、それはこのような積分の形で書ける、という物らしい。

で、この被積分関数をRandon-Nikodym微分と呼ぶらしい。

へー、面白いね。なるほど。

9.4の冒頭に戻る

さて、以上を踏まえて。

ラムダはR上の確率測度だろう。どうもa, bの区間ならb-aとなるような測度っぽいな。

で、さらにlawもR上の確率測度だろう。この場合、ランダム変数の定義域と値域がどちらもRなのでややこしいが。

考えてみると、lawであるかどうか、というのは、逆像を確率測度で射影した物になっているかどうかだが、それはつまり値域が0-1の測度かどうか、という事だけのように思う。この条件が満たせていれば、たぶん確率変数を定義出来るだろう。

すると、lawと確率測度は、オメガがRの時にはそんな違わない物になってしまう（区別は重要だか）

で、ラムダがゼロとなるようなサブゼットというのは、有理数とか、とにかく長さがゼロの飛び飛びな値の集合だよな。これの連続関数による逆像はやっぱ測度ゼロだろう。

だからPはabsolutely continuous w.r.t. ラムダ、と言えそう。

という事は、Pはある関数fを用いて、ラムダ上の積分と表せる。

これをfから始めると9.4の冒頭の話になるな。よし、完璧に理解した！

9.4.1 probability densityとは何か

9.4.1で正規分布の確率密度が出ていて、これがprobability densityである、という証明がある。

という事でこの前にある定義を少し考えてみる。

まずオメガがRの場合で、R上のルベーグ測度ラムダに対し、measurable で全積分の結果がfなものをprobabilistic density と呼ぶ。

で、このボレル集合Aに対する積分でP(A)を定義する事で、Pが定義出来る。この時Pはabsolutely continuousなんたらかんたら、になるのはほぼ自明だろう。

このPは確率測度であると同時に、何かのランダム変数のlawになってる、という話っぽいが、そう言えるのかなぁ。 Xを恒等射とすればいつでも言えるか。

この時確率測度は決まらないが、確率変数は決まるので、なんだか気持ち悪いな。
ただ、分布関数からの定式化は以前見ているので、似たような物ではある。

特性関数とmoment generating function

両方出てきてややこしいのでここに軽くまとめておく。moment generating functionはホエールとかの積率母関数って奴だよな。

独立なランダム変数の和について考える

定理9.4.3を見てて、またいまいち良く分からなかったので少し考えた所、思ったより長くなったので節として独立して考えてみる。

独立な確率変数X+Yについて、いろいろ考える。

ランダム変数の独立

定理9.4.3で出てきた時に、ぱっと思い出せなかったのでメモしておこう。
定義はp252の下の方。

XとYが独立とは、以下の事。

つまりランダム変数の直積のlawが個々のlawの直積測度となる事。

定理9.4.3を（また）考える

さて、以前のconvolutionでも同じような事を考えたが、X+Yのlawは、XとYが独立という事とどう関連づけられるのだろうか。

X+Yの逆像は、Aから直積の何かの集合への射影ではあるだろう。これをGと名付けよう。

で、このGを直積測度で測ると実数値が得られる。これが、L(X+Y)という測度でAを測る事に相当するはず。

また、Gは第一要素と第二要素それぞれの集合を考える事が出来る。これをGx, Gyと名付けよう。

GxとGy の何かの測度による値の積になってると思うのだが、なんの測度だろうか？

うーん、ちょっと分からなくなってきたので、具体的な例から考えてみよう。

古典的な確率変数の和について考える

以下のような分布のX, Yについて、X+Yを考える。

L(X)は、Indicator functionの積分で定義出来そう。

L(Y)も定義出来るな。

X+Yもこの場合はindicator functionで表せそう。ただ、その前に分布を書いてみよう。

3から7の間を取る訳だよな。

X+Y=Lとなる時のXとYって、切片がLで傾きが-1の直線だよな。この直線上の第一象限で切り取られる所の長さが確率密度か？自明では無いが。たぶんこの自明でない所を直積測度から考えないと駄目なんだろうな。

5までは $\sqrt{2} L$ で増していき、5からは同じ傾きで減っていく感じか。

X+Yのlawは、3から7の範囲でオーバーラップしている所の面積、という事になる。

あんま簡単な式にはならなさそうだが、これがconvolutionにはなってそう。

古典的な場合のX+Yの逆像

さて、X+Yの逆像を考えよう。

Markdownの都合で閉区間をかぎ括弧で表す。で、4以上5以下、つまり「4, 5」の逆像を考えよう。

足した結果が4になる為には、Yは2が最小だからXは2以下。つまりXは「1, 2」となる。Yは「2, 3」か。

また、X+Yが5になる為には、Xの最大が3なので、Yは2以上。これは全範囲か。 Xは「1, 3」で、Y は「2, 4」となるね。

X+Yがある値の時（例えばLとしよう）、XとYは特定の範囲を取る訳だが、Xの値が決まればYは一意に決まる。

例えばLが4の時、逆像のXは「1, 2」で、この各Xについて点Yが対応するので、直積としては直線になるのか。そうか、これは先程の切片が4で傾きが-1の直線だな。

ではLを4から5まで動かすと、以下の水色の斜線のような範囲となるか。

これでX+Yによる、ボレル集合の元の逆像が分かった。この範囲の直積、という事だ。

で、この範囲を直積測度で測った値が、X+Yのlawで「4, 5」を測った結果か？

なるほど、ここの直積測度の所で独立の仮定が要るのか。

よし、分かってきたぞ。ここまでをまとめよう。

B(R)の元のX+Yの逆像は、直積空間上のボレル集合族の元になる（たぶん）
その直積空間上のボレル集合族の元を測るのは、L（＜X, Y＞）
独立だとそれが、L(X)とL(Y)の直積測度となる

lawとdensityについて考える

さて、law(X)とはなんぞや？さきほどIndicator functionの積分で定義したものだな。

最初の定義ではXの逆像に確率測度を適用するもの、というのが定義だったが、これの場合不要な確率測度を考える必要が出てくる。

この場合はそれよりも、densityをルベーグ積分した物、という定義の方が良いだろう。で、最初のIndicator functionの積分に戻る訳だ。

直積測度を計算してみる

で、直積測度は切り口集合を考えて順番に積分してやれば良い（フビニの定理もあるので、あんま細かい事気にせずやって良い）

その積分を書くと、

よし、独立なら計算出来た。

まとめ

X+Yは可測関数で、逆像はXとYの直積空間上のボレル集合族の元を与える
そのボレル集合族の元は、L（＜X, Y＞）で測る事が出来る
それは独立ならL(X)とL(Y)の直積測度となり、それはL(X)とL(Y)を順番にルベーグ積分した物となる
L(X)などは、densityのルベーグ積分で定義される

よし、ちゃんと理解出来た気がする！

9.4に戻る

X+Yについては大分理解を深めたので、定理9.4.3あたりに戻る。

定理 9.4.3

i.i.d.な確率変数の和の特性関数は簡単に表せます、という定理だが、証明が簡潔過ぎるのでメモを書いていく。

まず期待値Eの定義から。

ここでPはXのlawな事に注意。

で、Snの特性関数は？というのが定理の話。書いてみよう。

よし、大した事は言ってないな。そしてこれは中心極限定理まであと一歩くらいの話でもある。

9.4.4よりあとの話

定理9.4.4は、特性関数を微分して0を入れるとモーメントが出てくる、という話。微分の存在とかは楽では無いが、キニシナイ。

定理9.4.5はpointwiseには中心極限定理が成り立つ、という意味らしい。各確率変数の特性関数をfと置いて0の周りでテイラー展開してn乗する。

極限の存在とか三次以降の項の和が本当に収束するかとか細かい事を気にしなければ、割と簡単な話。

よし、これで9.4を最後まで読んだぞ！

9.4感想

特性関数と中心極限定理の証明の概略くらいはもっと古典的なところで勉強した事があるのだけれど、その時よりはずっと何をやってるのか理解出来るようになった。

測度論の枠組みで確率を扱うのも大分慣れてきて、大分自由に使えるようになってきたと思う。

9.4はこれまで飛ばしたりいい加減にやってた所をちゃんと見直す良い題材となっているので、扱っている内容以上にやりごたえがあった。
この本のレベルでのこの周辺の議論も凄く理解が深まった。

一つ不思議に思うのは、この話をあんまり他の教科書で見ない、という事。測度論的な確率論の本は何冊かあるが、本当にガチに記号論理で語って意味が分からないか、もっと古典的な確率空間の話で終わっている。

理論体系として結構美しいし、幾つかの角度から定式化出来て、しかも対応する良く知られた古典的な要素があるので、もっと初心者向けに語っても面白いと思うのだが。

でも測度論をここまで自由に扱える初心者なんてものを想定してもパイが狭すぎるのかね。

この辺、くわしい人と雑談的な動画とか作りたいなぁ、というくらいには面白いと思った。

何より我々はGANで使うしね！

9.5 特性関数の一意性と中心極限定理

ここはあまり興味の無い所な気がするが、一意性の証明のあらすじと中心極限定理の周辺の話を軽く見ておこう。

収束の速さ的な議論には興味があるのだが。

9.5.2 正規分布によるconvolution

なんかいろいろ変数が出てきて分かりにくいのでメモを書く。

ここで、正規分布の特性関数が9.4.2で与えられてて、これをもう一度フーリエ変換（元が逆変換か？まぁ言葉はどっちでもいい）すると元に戻る事を使う。

特性関数は以下

ここで、mがこの場合はyである、と考えて、uをtと置きかえると、このフーリエ変換は以下のように書ける。

あとは教科書の証明の式で十分だろう。

訂正: 少し先の9.5.4で初めてフーリエ逆変換で戻る、という話をしているので、これを使っては駄目そう。 9.4.2 aの変数置き換えで右辺を標準正規分布に出来るので、これを逆変換と見れば良さそうだけど、フーリエ逆変換で戻るのは自分的には使っていいかなぁ。

9.5のそれ以降は眺めるだけ

幾つかの定理は使う事もありそうだが、間違いなくその時まで覚えてる事は無いので今は眺めるのみ。

で、9.5の話をざっと眺めた。興味ある収束の速度的な話題は無さそう。

9.6では分布が同じとは限らない独立の確率変数の和の極限定理（リンドバーグの定理と言うらしい）だが、使った事無いので飛ばす。

9.7も見るだけ。独立な変数の和の収束は、a.s.もin probabilityもin lawも、どれか一つが収束すればそれ以外の収束も保証されるとか（Levy’s Equivalence Theorem）。

この辺は使う時に真面目にやろう。

9.8はLevyの連続性定理。特性関数が収束するとlawも収束するとか。そのほかいろいろ難しい話題があるがお手上げ。

10章条件付き確率とマルチンゲール

今は確率過程には興味は無いからマルチンゲールのあたりは読まなくて良いかなぁ、と思うけれど、条件付き確率の定式化は見たこと無いので見ておこう、と思った。

10章は10.2まででいいかなぁ。

とりあえず読んでみよう。

10.1 Conditional Expectation

条件付き確率って言われてみると実解析の上ではこれまで見た事無かったな。

確率空間の元での定義はまぁ古典的なのと同じなので良い。

XのConditional Expectation given sub algebra

定義が出てきたがいまいちこれの意味する所か分からないのでメモを書く。

まずExampleを見ていく。1つ目。

を、個々のAについて計算してみよう。

深く考えずに計算してみた。こういう感じか？

で、Yによる積分がこれに一致するようなY、というのは、それぞれ3/2と1/2という事らしい。

細かい事を考えていこう。 Pというのは、サイコロを2つ投げた時の目に対する確率測度だよな。

で、Xというのはこのサイコロの目の組み合わせから、0, 1, 2への写像だ。

HH, HTという部分集合に対して、XのPによるルベーグ積分とはどう定義されるか？

Xを区間関数の和として表すと、

という感じか？離散的なのでデルタ関数で書くべきかもしれんが。

で、花文字Aの中の要素に対してXの値の値域を考えて、その逆像を考える。

例えば2の逆像を考えるとHHとなってて、これの測度が1/4、それとこの区間でのXの値、つまりは2を掛けた物が、2のあたりの積分値となる。

次に1の逆像を考えるとHTとTHか？でもTHはAに収まってない。普通、範囲Aでの積分は、 $I_A$ を掛けたもの、が定義だっけ。

よし、積分の意味は理解出来た。次にYだ。

花文字Aで可測かどうか、というのは、1とか2の逆像が花文字Aに入るか、という事だよなぁ。

Xが花文字Aで可測じゃないけど、Aによる積分が定義出来る、という事はあるか？例えば1の逆像はTHとHTだから、この2つの集合は花文字Aには入ってない。

そもそも花文字Aはシグマ集合体なのか？ HH, HTの補集合は？TTとTHだな。そうか。入りそうか。

シグマ集合体はユニオンだけでいいんたっけ。じゃあ成り立ちそうか。

すると先ほどのXは花文字A上で可測関数では無い？ 1の逆像が花文字Aに入ってないので。

ふむ。

yとはなんぞや？

ではこれが成り立つ為のYというと？

気分的に何かの逆像が、HH, HTとTH, TTになるようなランダム変数ならいいんじゃないか。

例えば最初がHなら3/2、最初がTなら1/2、というランダム変数を考えよう。

3/2の逆像はHH, HT。1/2の逆像はTH, TT。そしてこれらの逆像の確率測度はそれぞれ2/4なので、一致しそうだな。

お、これがExample iで言ってる事か。

で、これこそが、

の定義、と言っている。「最初の結果が同じ」というシグマ部分集合族がgivenな時の条件付き期待値、という事だ。

これは花文字Aで可測関数となっている。もっと言えばPと合成する事で花文字Aの測度になるんじゃないか？

HH, HTで3/4、TH, TTで1/4、全体で1、なら測度になりそう。

この測度は何だろうか。定義により、そのAの区間でXをルベーグ積分したものだな。つまりその区間での期待値だ。

Yはその区間が実現した時の期待値だな。つまり花文字Aの要素となる部分集合が実現した時の期待値。

ふむ、もともと、古典的な条件付き期待値は、ある事象が実現した時の期待値だよな。で、これはその事象の集合族に拡張されたものか。個々の花文字Aの要素のもとでの条件付き期待値を返すような可測関数。

お、分かった気がする。

条件付き期待値、まとめ

花文字Aがgivenの時の条件付き期待値とは、花文字Aの上で可測な関数で、その値は花文字Aの要素のXでの期待値に一致するもの。

数式を言葉にしただけになってしまった。数学の理解とはえてしてそういうものなので仕方ない。

定理 10.1.1条件付き期待値の存在する十分条件

10.1.1の証明がさっぱり頭に入ってこなかったのでここにメモしながら読む。

まずは花文字L1の定義から。

これはLpスペースのL1っぽいな。定義としてはp153の5.1のあたりにあって、

となるようなfの集合だな。

で、本題の10.1.1。Xの花文字Aの要素による積分は、花文字Aのabsolutely continuousな測度となっている。

この測度があれば、Pとの間にRadon Nikodymの定理が使えて目的の性質を持ったYが存在する、と言える。

Xに関してはAによる積分が存在すればだいたい十分だよな。これと花文字L1が同じ事かはちょっと分からないが、多分十分条件だ、という定理がどっかにあるに違いない。

そのあとの話は眺めておく、くらいにしておく。使いみちが良く分からんので。

10.1 条件付き期待値、雑感

条件付き確率の話だと思ってたが、実は条件付き期待値の話だった。

条件付き確率は次の10.2だそうで。

条件付き期待値は難しい事がある訳じゃないが、使いみちが良く分からないな。使うのかしら？

10.2 条件付き確率

条件付き確率は、indicator functionの条件付き期待値で定義されるらしい。

少し定義を眺めてみよう。

ここで条件付き期待値は前にやったもの。

条件付き期待値の復習

ここに定義を書いておこう。

花文字Aで可測関数、というのは、実数のボレル集合族の逆像が花文字Aの元となっている、という事。

Pは花文字Aを含んだ元の花文字Sの測度で、いわゆるもとになってる確率空間の測度だ。

なんかすっと頭に入ってこないので最初から考えていく。

Aでの積分というのは、確率測度の値域は0から1までなので、この全値域の逆像のうち、Aに入ってるものだけを残す、という事だ。

で、このAを細かく分割して、Xのそこでの値とその区間の積を足し合わせた物が右辺となる。

左辺は花文字Aで可測というので、たぶん逆像がAになるような0, 1間のボレル集合が存在するんだよなぁ。

なんか分かった気がする。

条件付き確率に戻る

定義でオメガが入ってるのがなんか良く分からないので、まず右辺の式を条件付き期待値の定義に戻って書いてみよう。

花文字Cは手書きでは辛いので、Cに縦棒入れた物で表す。

となるYが、条件付き確率の定義らしい。 Yは可測関数なので、オメガを実数に射影する関数で、さらにB以外だとゼロに射影しているね。

左辺は古典的な話で良く見る、

だよな。

右辺がうまいこと、

になっていると、古典的な積の法則になるのだが。

Yは花文字C上で可測なので、Cの像は0, 1上のボレル集合となってて、逆像はCに一致するのだよな。

で、この積分は花文字C上の測度になってるだろう。

逆に考えてみよう。花文字C上の測度があります。これを、P(C)との積に分解した時の残った方をP(B|C)と定義する、と考えるとどうだろう？

まず花文字AはもともとSの部分集合族なので、P(C)は求まる。で、ゼロじゃなければ、Yの積分値をP(C)で割る事はいつでも出来るだろう。

なんかあと一歩だな。

Bという確率変数の花文字Cの条件つき確率というのは、花文字Cという部分代数の各元Cに対し、P(B

C)となるような何かだよな。

で、これは1BとCのintersectのPによる測度を、P(C)で割った物になってて欲しい。

まてよ？これ、確率測度にする為に1で規格化しようと考えればいいんじゃないか？

すると、Bを全オメガで1Bの方の積分を計算してやると、P(C)となるよな。

ということは、定義により右辺も全部積分するとP(C)になるんだ。

じゃあ右辺を全体で積分して1にするなら？と考えると、P(C)で割れば良いな。

つまり、

は、花文字A上で定義された確率測度となるな。これはBが隠れてしまってるが、Bを決めるとYが決まるので、Bの関数と考えるべきか。

なんかもうちょっとなんだが、何かが分かってない感じだな。

とりあえず本文に戻ろう。

regular condtional probability

今度はregularなんて物が出てきた。まず、restrictionというのは、部分集合の上だけに再定義した関数という事らしい。

で、regular conditional probabilityというのは、

conditional probabilityで
あるオメガと花文字Cに対して、花文字Aの確率測度となっている事

almost surelyは確率1で起こる事象の事だった。

2が何を意味しているのかは良く分からないなぁ。

これが、花文字Aの上でのメジャーだとおっしゃる。

良く分からないなぁ。ここまでの理解をつらつら書いていこう。

まず

となるようなもの。で、花文字（じゃないけど）Cの所はサブシグマ代数で、ここの元の期待値になってるようなもの。

Cで積分すると、CとBのintersectionの確率測度となる。あるオメガを射影するとどういう値が得られるか？

オメガが

Bの中 … P(BかつC) /P(C)
Bの外 … 0

という事で、indicator functionになってそうだな。

Cが与えられたらこれでいい訳だが、単なるオメガが与えられたらどうだろう？

条件付き期待値を（また）考え直す

例えば10.1でやった、一回目が同じというサブシグマ代数の時は、E(X

A)は、オメガの関数で、

オメガがHHかHT … 3/2
オメガがTHかTT … 1/2

となる物だよな。確かにオメガだけで値が決まるが、Cで積分すると一致するように決まってる。

これらの値には意味は無くて、Cで積分するとCの期待値になる、ってだけだよな。さらに任意の開集合の逆像が花文字Cの元になってるだけで。

いい加減な議論をすれば、花文字Cはシグマ代数なのだから、だいたいは互いに疎な集合で覆える。

で、任意の値域の値の逆像がこの互いに疎な集合の和で表される。

この互いに疎な集合の一つをCとすると、

E(B	C)はP(BかつC)/P(C)となるユニフォームな密度のような物と出来るんじゃないか。

だから各オメガはこのCのどれかに入るかで値が決まるような、段々の関数。値の大きさはその期待値をCの長さで割ったようなもの。

厳密にはBの期待値の逆像の値が変わるところでは分割しなきゃいけないが、気分は分かる。

お、これは分かったんじゃないか？そうか。そういう感じのものか。

条件付き確率を考え直す

では条件付き確率を考え直してみよう。なんかボレル集合族の元Bがあるとする。

この時、1Bの条件付き期待値は、まずオメガの写像である。

それはどんな写像かというと、互いに疎っぽいCに分けた時のどのCに入ってるかをまず探し、そのCとBのまじわってる範囲の長さをCの長さで割った値へと移す写像だ。

よし、分かった！

regular conditional probabilityを考え直す

さて、regularの定義を考え直す。

任意のオメガに対して、オメガを固定してBの方を動かすと、元の確率空間全体のシグマ代数の確率測度となっている、が定義だな。

オメガを固定すれば、それが属している互いに疎っぽいCは見つかるので、そこの1Bとのintersectionの長さみたいなもんだ。（定数倍だけ違うが）

で、1Bをいろいろ動かした時に、花文字Aの確率測度になる為には…

感覚的にはBの関数なんだから、逆像はBにおさまりそうなもんだが、いろんな所から同じ値に行って、逆像がシグマ代数に入らないケースはあるのかもしれない。相当病的なケースかもしれないが。

measurableでさえあれば確率測度にはなりそうな気がする。Bが全体の時はBかつCはCだろうから。

よし！何を言ってるかは分かった気がする！

conditional distribution

次はcondional distribution （p342）

条件付き確率は前のページに定義があった気がするので、何が違うの？というのが第一感。

良く見てみると、前のページのBはシグマ集合族の元であって、確率変数じゃないな。

では今度は確率変数か。

でもそうは言っても、オメガで定義出来ればランダム変数でも定義出来るんじゃないか？

XとYの合成として、結果が直積のR2に行く写像を考える。これはたぶん可測関数だよな。

で、この直積のボレル集合族かなんか考えれば、これの逆像として前の条件付き確率に帰着されそう。逆像は同じ一つのオメガでいいし、それは直積である必要も、直積で無い必要も無い。

よし、分かった気がするので、教科書に戻ってみよう。

定義のiとiiを見ると、特にiiは自分の理解と同じ事を言っている。 Xを花文字Cに拡張し、Yの条件をYの値域のボレル集合族に拡張し、定義としては個々の要素で全ページの定義に一致するもの、という事か。

うむ、分かりそうな気がする。

product space case

product space caseってなんかそういう用語があるのかね？それとも単にproduct spaceの場合って意味なのだろうか。まぁ呼び方なんてどうでもいい。

そのあとの話は直積スペースで同じ事を述べているだけに見えるが、 XとYの定義がprojectionになってる所が違うね。

これだとXのlawもYのlawも一緒になっちゃうのでは？と思うが、S, DとT, Bが別なので違う物になるのだった。

で、conditional distributions $P_x$ という物が登場している。複数形のsがついてるのが、前のページの $P(Y|\mathscr{C})$ との違いか？まじかよ…

定義としては、直積の断面っぽい物になってる、という事だな。

三角形の具体例

具体的な話が出ているので、真面目にメモを描いてみよう。

こんな一様分布。面積は1/2だから、1に規格化する為には2倍する必要がある。

f(x, y)はその確率密度だな。 $f_X$ はy でマージナライズした物が定義か。

あるxの値の時、yは0からxまでの範囲をとるよな。だから高さはxか。2倍して2x。条件つき確率密度もExample IIの式をただ入れるだけだ。

$f_X$ は名前からするとXのlawの密度になってて欲しいが成ってるだろうか？ Radon-Nikodymの式を考えてみよう。

ラムダは範囲を食わすと面積を返す測度だろう。

Xのlawは何か？

Xが(x, y)からxを取り出すものなので、逆像は任意のyに広がる。 xの範囲から面積にするには、

一つの区間ならこれか。これがXのlawかね。

これを左辺においてRadnon-Nikodymの式を考えてると、 $f_X$ は密度になってそうかな。これはほとんどフビニの定理と同じ事を言っているか。

定理 10.2.1 積分の表現

ここでconditional distributionとconditional distributionsが一致するか、とかそういう話をしている。sがあるか無いかだけの物を混在させるの辛い。

さて、$$ P(Y

\mathscr{C})$$はなんだったのかから思い出そう。

花文字Cが抜けてるな。これは花文字Aの部分シグマ代数だそうで。

引数としてはBとオメガの両方を受け取る事に注意が必要で、この関数はある花文字Cの元Cが与えられた時、Cの範囲で積分するとBのYによる逆像とCのintersectionの長さになるような関数となってる。

単体のオメガに関しては、この関数を単純関数に展開した時の、オメガの場所が属してるCとBのintersectionの密度みたいなものだ。

一方、conditional distributions $P_x$ は、直積のサンプルにたいする確率測度の、xによる断面。

DとBがすぐわからなくなるが、 XがS, Dの方。YがT, Bの方。

右辺を適当なDでx積分すれば、BxDの測度の値となる。

左辺はDで積分する時は、yがどうなるかを考える必要はありそうだなぁ。 Xの逆像は、yの側は全集合になるが、yを止めたxだけ動かした集合はボレル集合族の元なのか？そしてふつうに考えれば積分はゼロだから、一致しないよな。

逆に考えよう。一致させる事は出来るだろうか？つまりこの範囲のyの全ての値で、左辺は同じ値とする。

うーん、分からん。少し読み進めてみよう。

定理4.2.8を使うとの事なので見ておく。ある集合Xと可測空間Y, Bに対して、XからYへの変換とXからRへの関数の関係。

gは書いてないけどRへの関数だね。

我々のケースとの関係を考えよう。直積で可測なのはxでD可測なのと等価だ、と言っている。

たぶんTとしてXを使うのかな。ややこしいので定理4.2.8を書き直してみよう。

え？本当？なんか直積の片方だけじゃ情報が落ちちゃってる気がするが。

あー、そうか、花文字Cの定義（p342の下の方）である、花文字DのXによるインバースとは、直積のボレル集合全体じゃないのか。 Tの方はいつもT全体なのね。

そうか、そもそもの$$P_{Y

C}$$は、C可測なのか。DxBの直積のボレル集合族で可測、では無いのね。そりゃそうだ。

お、分かった気がする。Cで可測なら $P_x$ と等価になりそう。

定理 10.2.2は眺めるだけ

完備でseparableなmetric spaceをPolish spaceというらしい。

で、Polish spaceへのランダム変数でも条件付き分布が一意に存在する、という話。

この証明はなかなか長く、3ページに渡っているし難しそうだが、感覚的には成り立ちそうな気もするので証明は追わない。必要になったら頑張ろう。

定理 10.2.5 条件付き期待値と条件付き分布の関係

Yの値域の方での関数gとその期待値の話。ようするにgは確率変数の関数だよな。

確率変数の関数の条件付き期待値は、条件付き分布で積分した物となっている、というのが10.2.5。花文字Cが部分シグマ代数な所が普通より一般的な所。

証明はindictor functionの場合を定義に従って示して、あとはmonotone convergenceを使う。

Jensenの不等式、他

あとの話は定義を理解して眺めるくらいで。使う事になったら証明を見る、くらいで十分だろう。

ここから先はマルチンゲールとかなので、確率過程に興味が無い今回はスルーしておこう。

10章感想

よし、めちゃくちゃ大変だった10章も終わりまで来た！やったぜ！頑張った！

いやー、これはきつい。条件付き分布がこんなに泣きそうな物だとは知らなんだ。

ただこのおかげで、測度論的考え方はめちゃくちゃ鍛えられた。もともとそれなりに出来るようになったと思ってたが、大分いい加減に飛ばしてた所も見直さないといけなくて、いろいろと詳しくなった。

これで確率論的な要素については、かなり一般的な定式化を一通り知った事になる。ここから先の分からない事は実解析とか関数解析の個別の本にあたれば良さそう。

それにしても条件付き確率ってこんな古典的な物といろいろ違うんだねぇ。全然知らなかったよ。

この辺全然知らないで確率分布のmetricとかの本読んでも分かる訳無いよなぁ。

今後の進め方

マルチンゲールや確率過程は興味が無いから飛ばす。

でも11章の後半の11.8には、Kantorovich-Rubinstein定理が…

初回は飛ばしても良いよマークがついてるので難しそうだ。これで入門するのが良いとも思えないが、ある程度やって難しさを理解するまではやっておいて良い気もする。

11章はゴツそうだが、11.8に必要な範囲は頑張ってみよう。

11章 Lawの収束とseparable metric space

この章は開幕から辛いなぁ。

xは時間が入ってるので確率過程っぽい話に見えるが、なんにせよRkじゃなくてヒルベルト空間だ、という話のよう。

パラパラ眺めると、なかなか我らが最終的に必要となる議論と近い話をしているので、かじりついてみる。

11.1 Lawと収束

これまで出てきた定義がぶわーっと再掲されているのがまず辛い。使うのだろうし、再掲されてないよりずっとありがたいが、こんな一気に出されても…

boundaryのあたりは少なくとも最近は見てないので初出みたいな気分。

そしてportmanteauの定理、というのが出てきている。

11.1.1 portmanteuの定理

意味する所がいまいち良く分からない定理だ。bとか、下から近づく物は無い、と言ってるんだよなぁ。

証明を見ると、左辺の定義が1Uな事を利用して、それより小さなfmの積分でP(U)を表現出来る、と言っている。

どんなmであれ、それを先に決めれば、もっと凄く近い点ではmdを1以下に出来る訳だ（アルキメデス性とか言うんだっけ？）。

そもそもlawの収束は積分で定義される（p292）。で、この関数のうちとしてfmというのは取れるだろう。

で、fmはUではなくその補集合Fに対して定義されてて、これは上がりきるまでの範囲だけは1Uよりちょっと低い。

p387の上の証明を右から辿ろう。

FmはUに収束するが、いつも少し範囲は狭い。でも収束するので、任意のイプシロンに対し、mを大きくすれば、

$P(F_m) > P(U)-\epsilon$

となるmを選べるであろう。で、Fmよりはfmを積分した物の方がちょっと大きい（斜めの所の積分値があるので）。

ちょっと分かってきたぞ。今度は証明を左から考えてみよう。

任意の関数で積分が収束するので、1Uよりちょっとだけ低い所があるfmと、その積分よりさらに低いFmを用意する事が出来る。

で、任意のイプシロンに対して、それより大分近いmを用意してやれば、nの極限ではmの差分に比べれば無視出来るくらい近くなるように大きなn を取れて、このnの範囲では

となるだろう。

式の変形は分かったが、いまいち何をやってるのか、話のキモが良く分からないな。

1Uより少し小さい関数を作れるが、それはどこまでも近く出来るので、イプシロンよりも近く出来る、という事だ。

逆は無理なのか？例えば1Uより少し大きい関数を作って上から抑え込むのは？

たぶん開集合性を使ってる場所が良く分かってないよな。近い点の存在とかを雑にあるものとしすぎてるので、たぶんこの論法では不等式じゃなくてイコールになってしまっている気がする。

どこかで開集合だから、という事を使っているのだろうが、もうこの辺忘れてるので、この説明からは読み解けない。うーむ。

Fの外側で、ちょっとだけ小さい関数を作れる、というのが、この話のキモに思う。ではちょっとだけ大きい関数が作れるか？というと無理だろう。

つまり、Uの中で1Uよりちょっとだけ小さい関数はこうやって作れるが、ちょっとだけ大きい関数をUの中で作るのは無理だな。端がゼロなのだから、このやり方で作れるのはちょっとだけ小さい関数だけだ。

うーむ、では閉集合では何故逆になるのか？もちろん補集合で開集合にして同じ議論が成り立つのは分かるが、閉集合内でちょっと小さい範囲は作れないのか？

そうか。 $F_m$ の極限は開集合になるように取る方が多分都合が良さそうだな。これを開集合にしようとすると、その補集合からの距離で定義するしか無いか。

閉集合の方で同じような事をしようとすると、極限で都合の悪い事は起きうる気がする。分からんけど。開集合のUにはどこまでも近づけるが、閉集合のFは明確に極限が別物だ。

ちゃんと理解出来た訳じゃないが、ちょっと不等号の非対称性がどこから来そうかは分かったかも。

(d)については、continuity setだと、int AとAとAの閉包が等しい事をつかって不等式で挟めるという話っぽい。これは定義から分かるね。

逆に不等式はboundaryからきている話な事が分かる。

11.1雑感

11.1.3と11.1.4は眺めるだけ。

この辺の話は実際に使う所まで行かないとやる気が出ないので、なんとなく眺めた状態で先に進んで、必要になったら戻ってくる事にする。

これで11.1を一応読み終わった事になるが、これは難しいね。自分のレベルを多少越えてる気がする。

自分の理解出来ている範囲で先に進めるかは分からないけれど、とりあえず「これは無理」となるまで進んでみようと思う。

関数解析との間を埋める話題って感じやね。

11.2 Lipschitz Functions

開幕から、微分可能多様体の一般化を考えましょう、みたいな話で「はぁ…微分幾何……」というため息しか出ない。

この手のは、結局一つ前の数学をちゃんとやらないとダメ、という結論になるのだが、とりあえす分かる範囲だけやってみよう。

BL(S, d)の定義

この11.2は、BL(S, d)という物について、いろいろと自然な性質がある、という話をしている。

個々の証明は厳しい感じだが、BL(S, d)が何か、という事と、結果を理解する事は出来そうなので、そのくらいはやっておこう。

まずBLノルムを理解する事からか。

これを元に、S上の有界なリプシッツ関数全体を表すBLは、以下のように定義出来る。

11.3 Lawの収束と距離

Lawの定義はボレル集合族の上で定義された確率測度の事。

で、Prohorov距離というのが定義されてるが全然イメージがつかめない。とりえず距離、という証明を見てみよう。

11.3.1 Prohorov metricはmetricである

まずは定義から。定義は以下。

証明の所でAのイプシロンCイプシロン、というのが出てくる。これは以下みたいな意味か？

この青の、さらにイプシロン近傍の集まり、という。

xとyがどうたら、という説明を見ると、正しそう。よしよし。

で、xがAなら、yはAのイプシロンに入る。ここまではいい。

その次の式が分からない。まずは最初の不等号から。

PとQは別のlawで、関係なんて仮定の部分しか無いはずだよな。で、両者は確率測度なので補集合と足すと1か。

お？つまりこういう事か。

お、示せた。よしよし。で、その次の不等号は分かる。

だから、AイプシロンCをAプライムとか置けば、Q, Pの距離がイプシロン以上、が示せるな。

次は三角不等式。

定義に従って書いてみたら、教科書とまったく同じ式になってしまった。

という事で成り立ちそう。

metric ベータ

そのあと、距離ベータというのが出てくる。見たこと無い気がするので、使うまで眺める程度で。

equicontinuousというのが出てくる。日本語では同程度連続らしい。知らねー！

関数の集合に対して、連続の定義のイプシロン-デルタが、この全関数で共通に定義出来る事っぽいな。

定理 11.3.5 確率変数とlawのmeritcの関係

確率変数間のmetricであるKy Fan metricと、そのlawに対するProhorov metric が関連がある、という話。

これは11章で理解したい事の一つなので頑張りたい。

まずKy Fan metricであるαの定義から。

で、定理 11.3.5 は以下の式。

確率変数が確率収束すればlawも収束する、というのを、もっと細かく言った式という事らしい。

粗筋としては、

を示す、という方針らしい。

まず、Ky Fan metricの式は、あるイプシロンで成り立てば、それより大きい任意のイプシロンプライムで成り立つ事を確認しよう。

イプシロンプライムの方がいつも範囲は狭いね。だから確率測度の値は小さくなる。

だから、

うむ、イプシロンプライムではいつでも成り立つな。

これはXをAの要素とすれば、Yの集合の範囲で考えて言えそう。（左辺は右辺の部分集合なので）

これとKy Fan metricの仮定を合わせて考えたい。

分かった！やったー！

11.3を終えて

定理 11.3.5 の、Ky Fan metricとProhorov metricの不等式の証明がちゃんと理解出来て、感動した。

いやぁ、良くここまで食らいついて来たよ、ほんと。

この証明自体はそんな難しい物では無いのだが、これが何を言ってるのかを理解するのはそれなりにちゃんと理解してないと分からないので、自分が一定の理解に到達した、という証明になって嬉しい。

この11.3.5は機械学習屋的にはこの本の目標でもあるので、これを理解出来たという事はこの本の関連ある部分は理解出来た、と言える。嬉しい。

11.8はwasserstein距離の話が出てくるのでこれもなんとか理解したいが、何を言ってるか理解する、というレベルでは11.3と同じ話だと思うので、やはり乗り切ったと言って良いんじゃないか（たぶん）

以前挫折したThe Methods of Distances in the Theory of Probability and Statisticsも今パラパラ眺めると大分分かるようになってて、この三ヶ月くらいの成長を噛み締めている。
いやぁ、ようやくこの辺分かってきた、って実感湧いたよ。長かった…

11.4 Empirical measure

この節は全く知らない話題なので、要るのかどうかも判断出来ない。少し読んでみよう。

ちょっと最初の定義の所をメモしておく。

さて、このlawがミューになるようなXとオメガ、Pがあるのは感覚的には良い。

で、オメガは直積でも良い訳だから、独立なランダム変数で幾つかその条件を満たす物を用意出来る、と。まぁ感覚的には良いかな。

で、empirical measureという物の定義が続く。

まずはこのディラック測度を確認する所から。

が定義で、これがXjのオメガだ、と言ってる訳か。 XjのオメガはSの要素になる。

さて、こいつは何か？オメガを一つ指定した時、幾つのXjの値がAに入るか、その割合を示している訳だよな。

さて、これは何に対する測度なのだろう？Aについての測度か。

なんかこの11.4節はこれの収束の話だけっぽいな。とりあえず使う所まで行ってから戻ってくるか。

11.5 TightnessとUniform tightness

tightの定義を9.3で見ると、以下みたいになってる。

確率測度の集合全体に対し、1にいくらでも近いコンパクト集合を見つける事が出来る、という事か。

で、universally measurableという定義が出てくる。

これはSを完備化したものの上で定義されるlaw（つまりその上のボレル集合族の上で定義される確率測度）が、必ずSを挟み込む、という事らしい。

つまり任意のPで、P(S)が定義出来るという事か。

定理 11.5.1 u.m.とtightの関係

定理: 可分な距離空間は、u.m.な事の必要十分条件は各law PがS上でtightな事

証明はちゃんとは理解出来ないが、なんとなく読む事でtightとかu.m.の使い方はなんとなく分かってきた。

定理 11.5.3 収束列とtight

定理: S, d上でP0に収束するlawの列Pnで、任意のnに対してPnがtightなら集合Pnはuniformly tight

証明は全然分からないが、成り立ってそうな定理なので結果を素直に受け入れる。

11.5 その後、雑感

そのあとProhorov metricローで成り立つ事はdual-bounded-Lipschitz metricベータでも成り立つ、みたいな話が続く。この2つの距離は結構似た性質なのね。

この辺は証明は大変だが、結果の使いみちは分かるし結果も納得しやすいので、どういう定理があるのかだけ眺めて先に進もうと思う。

11.6 Strassenの定理

lawのProhorov metricが一定以下、というのはそのランダム変数のKy Fan metricの距離が同じくらい近い、という定理らしい。

証明は手強そうなのだが、これってwasserstein距離でも似た議論があるっぽいので、出来る範囲で証明も見ておこうかな、と思う。理解出来る気はしないが…

relation周辺の定義

集合XとYが与えられている時、

11.6.1 ペアリング定理

帰納法の仮定が良く分からなくなって来たのでメモ。

fが無いならこの不等式が成り立たない訳だ。

で、m-1までこの定理が成立しているとして、mで上を仮定して下を導き出したい。

Otherwiseの所。
m-1でpairingが成り立たないと、この定理の対偶により不等式が成り立たない。でもmの時は仮定により上の不等式が成り立ってるので両方が成立するのは等号のみ。

さらにcard(A)は少なくともxが無いのでcard(X)より小さい。つまりm-1以下。そこで等号が成り立つなら帰納法の仮定によりAKとAのpairingがある。

定理 11.6.2 を眺める

証明は著者が独自に考えました、みたいな内容であまりにもガチなのでちょっと諦めさせてもらおう。

まずは意味を理解する。

separableなmetric space (S, d)があって、このS上のlaw P, Qと、あるゼロ以上のαとβに対し、以下の2つの条件は等価。

PとQがtightならIIはさらにaをαに出来る、との事。

さて、IはProhorov metricと似ている。 IIはKy Fan metricに似ている。という事でその2つをここに再掲しておこう。

Iのβをαにすれば、このProhorov metricに一致しそう。

こちらはIIのβをaにし、そのinf を取れば一致しそう。

この2つの式は距離にはなってないが、P, QやX, Yの近さの度合いにはなっている。で、それがlawとそのランダム変数で同じような範囲に存在してる、と言える訳だな。

系 11.6.4

11.3.5は以下だった。

それに対し系11.6.4 はその逆の不等式で、先にlawのP, Qが与えられた時に、以下を満たすようなランダム変数X, Yが見つけられる、というもの。

これはlawがProhorov距離として近ければ、同じくらいKy Fan距離で近いランダム変数X, Yが見つかる、という事。

11.7 Lawの列の収束やランダム変数

lawの系列について見ていく節か。とりあえずトピックだけ追って、必要そうかどうか判断しよう。

定理11.7.1で、系列の距離がゼロに向かう事は、距離が0に確率収束するようなランダム変数列の組が見つけられる、という話がある。

この辺は割と自然な結論だな。

次の定理11.7.2は証明がめっさ難しいらしい。（長い…）

主張としては、law Pnが何か特定のlaw P0に収束するなら、それに対応するランダム変数が存在して、その収束先のlawも同じ所に収束する、という物。

え？これって前に証明無かったか？というレベルで当然に見えるが、無いらしい。

11.7.6の手前に、levy metricと分布関数は、Prohorov metric よりweakという話がちらっとある。

定理11.7.6では、Prohorov metricが1でもcharacteristic functionの差のsupが0に収束するものがある、との事。マジかよ！

9.5を見直すとcharacteristic functionが同じなら、lawが同じ、というのはある。

うーむ、無限に近くても駄目なのかぁ。こういうのはなんとなく普通っぽい、という結論を真面目に追ってないと太刀打ちできないなぁ。

仕方ない。とりあえずこういうやばい事がある、と頭の片隅に入れておくくらいで先に進もう。

11.8 Kantrovich-Rubinsteinの定理

ようやく「W-GANで出てくる奴だ！」と思える物に辿り着いた…

ここは出来る限り読んでいきたいが、この本の簡潔さを思うと限界はあるだろう。無理はしない範囲で頑張りたい。

でもやる気は出るね！

marginalの定義を確認

とりあえずp407にある定義を再掲する。

プロジェクションの逆像は、片方が全集合になるという事やね。

Monge-Wasserstain距離

M(P, Q)はマージナルがPとQになるような、S x Sのlawの集合だ。なんかこれ、この前のProbabilistic Metric Spaces (Dover Books on Mathematics)を読むぞ！でやった気がするな。

$\mathscr{P}_1(S)$ はS上のlawで、

があるzで成立するPの集合、らしい。定理11.8.1により一つのzで成立すれば任意のzで成立する。

で、この $\mathscr{P}_1(S)$ の元P, Qに対し、Menge-Wasserstein距離は以下で定義出来る。

これはどんな量か？感覚的に少し考える。

フビニの定理で順番に積分する事を考える。で、xをどこかに止めておこう。で、yを全範囲で動かす。

気分的にはこれはyの分布Qでの、xからの距離の期待値になる。

それをさらにxの全範囲で積分する。気分的にはxとyの距離の期待値だな。

気分と厳密な定義の違いは何か？まずinfがついてる。これはlawの中で一番小さい物を探す訳だな。なんとなく直積測度で考えてしまうが、それだとinf も何も無い。

しっかり分かった感じじゃないが、このくらいにして先を読んでみよう。

ガンマの定義

Kantorovich-Rubinsteinの定理のもう片方、ガンマの定義も書いておく。

Lipschitz semi normの定義は以下だった:

Lipschitz定数という奴かな。で、この定義を元にガンマは以下のように定義される。

うーむ、これは難しいな。P-Qという事はこの違いの差分の測度による期待値のような物、という事になるのかな。

確か前にベータの所で定義があったな。 p394(11.3.1の所)か。

fは任意のリプシッツ定数1以下の関数の集合か？

定義を理解するのも一苦労やね。

証明の所とかを見ていくと理解が深まるのを期待して先に進む。

11.8.2 Kantorovich-Rubinsteinの定理

定理は、Wとガンマが一致する、というもの。記念に一応書いておくか。

証明の最初の所は分かりそうなので考えてみる。

これで最初の等号の所は言えた。次にリプシッツ定数が1以下なので、次の不等号が言えそう。

よし、不等式くらいは示せた。

で、pseudometricの定義は三角不等式、自身との距離がゼロ、対称性の3つで、成り立たないのは距離がゼロなら同じ点、という奴。

少し意味を考える

証明はあまりのゴツさに挫折したので、定理の意味を考える。

Wはinf でガンマがsupなので、これがいわゆるKantorovich-Rubinstein dualityという奴なのかな。

Wは直積空間の確率測度の中で最小な物を探す、という話。ガンマはリプシッツ定数1以下の関数のうち最大の物を探す、という話。

Wはランダム変数の差の期待値のような物、という理解で良いだろうか？ Problemsの1と2を見ると、だいたい良さそうだ。

fは確率密度をイメージしとくと良いのだろうか。ただそれとリプシッツ定数1以下の関係はピンとこない。これを最大にするfはRadon-Nikodym微分になってたりしないのかなぁ。

とりあえずこの本はこの辺にしておこう。もうちょっとこの問題の理解度を上げてから戻ってくるかも。

本書を読み終えた感想

11.7まで飛ばし飛ばしだか読んだので感想。

自分は8章、9章はだいたい読み、10章は10.2まで読み、11章もだいたい読んだ。それよりあとの章は一切読まず、前の章は必要に応じて参照したくらい。
言葉にすれば確率論の所を、確率過程以外はだいたい読んだ、くらいだろうか。

最初は凄い基本的な集合論の話とかから始まるが、全然入門的な本では無い。というか最初のそういうの、要らないでしょ！？というのがここまで読んだ感想。本当に選択公理とかまで含めた最初から全部扱ってる。

この本は実解析を用いて確率論の話をする本。確率論がメインだが、ガチの実解析な所が素晴らしい。確率過程の話して終わり、という世の確率本の応用本とは一線を画す。

全体的に記述が、3行飛ばしくらいで書かれている印象。読むだけでは絶対理解出来ないが、考えると行間は自力で埋められる。この、読んてもさっぱり分からないが、書きながら考えると毎回自分で行間埋められる、という数学書は初めて見た気がする。だから凄く難しくて一人で読めない類の本じゃない。だが読むだけじゃ一行も分からないくらい難しい。

追えない程とばしている場所が一箇所も無い。こんな数学書を作る事が可能なのか、と驚愕する。きっちり同じだけ全ての場所を飛ばす。

前提とする知識がどの辺かは難しい所だが、測度論とその上での確率空間は、やはり他で勉強してくる必要はあると思う。

ただ、その辺の必要な事は一応全部書いてあるので、ある程度抜けがあっても良い。

で、その辺前提とした上でさらに先の確率論って何よ？という気がするが、より可測関数を基礎に置いた理論が展開されている。

具体的にはlawと確率変数の関係の話が詳しく載っている。例えば確率変数の和のlawがconvolutionになってる、とか、lawのProhorov距離と確率変数のKy fan距離の関係、とか。そして極限定理の収束に関する議論も相当詳しい。特性関数が一致するからlawが一致するのね、程度のレベルでは無く、もっとずっといろいろ細かい話を展開してくれる。

半分くらいは測度論と関数解析の内容で、しかも相当advancedな事も確率論に必要ならやる、という姿勢。必要な定理がもれなく用意されてるのは非常にありがたい。ただ三行飛ばしなので読むのは大変。

この本の著者はこの周辺の研究でかなり有名な人なんだろう。割と基礎的で重要な定理の所で自身の証明が結構出てくる。例えばKantorovich-Rubinsteinの定理のnon-compactな場合が全然理解出来ないなぁ、と思ってググったら、non-compactな場合への拡張はDudley による、とか書いてある。この本の著者じゃん！ 80年代とか。結構（数学的には）最近でビビる。
他にも「この証明は英語圏では出版されてないが、私はXXから教えてもらったのをベースに証明を行った」みたいなノートが書いてあったりする。凄い。

幾つかの証明はこの分野の一線の研究にかなり近い内容で、庶民の自分にはまったくついていける気はしない。最初の頃は基礎的な本なのか？と思いながら読んでたが、全然そんな事無かった。むしろこれより難しい確率論の本を探すのが難しいくらい難しい話題をやってる。

ただこの本はそういうのについていけない人でも得る物が有るようには書かれていると思う。自分もとても多くを学んだ。

そんな人がこれだけ私でも読めるような本を書いてくれたのは大変ありがたい。この本の内容は本当に類書が無くて、しかもとても必要な内容に直結してて素晴らしい。

ただ、そんなに重要な本なので、三行飛ばしじゃなく読めば分かるように書かれた本が欲しいなぁ、とも思ってしまう。確率論の為の実解析の本、他にもあってもいいんじゃないかなぁ。

もうちょっと実例とかも多くいれて、ゆっくり進む本が欲しい。本書が3ページで解説する所を30ページくらいで進んで欲しい。

そんな訳で読むのは大変辛い本だけど、ここまで網羅的に必要な事を全部書いてくれている本は凄くありがたい。

その網羅性は頑張ればギリギリ行間を埋められる簡潔さから来ているのも間違い無いので、これはこれで一つの形なのだと思うし、この困難な仕事をここまで見事にこなしてるのもさすがだ。

この内容のレベルの本では圧倒的に読みやすい。類書で挫折しまくってる自分が言うのだから間違いない。

ただ、それでももうちょっと行間埋まってる本が読みたいです…ゆとりなんで。すみません。

扱ってるトビック的には素晴らしい。機械学習の確率論で必要な事を学ぶ、一つ手前までは全て網羅されているんじゃないか。
この本をやれば、各論文の参考文献に記されている教科書を読む事が出来るようになると思う。まだ読んでないから途中で挫折するかもしれないが、少なくともパラパラ見た時の理解度は格段に上がってる。

非専門家の自分が専門家向けに書かれた教科書を読めるようにしてくれる為のバイブルだ。昨今の高度化した生成モデルの議論にちゃんとつていける地盤を作ってくれる。本当にありがたい。

一方で読むのに要求される水準も相当高い。測度論やその上の確率論はかなり詳しい事が期待される。位相も相当慣れてる必要がある。また、関数解析もある程度はかじってないと辛い（ただそこまでバリバリ出来なくても平気）。この本読めるプログラマはどれだけ居るだろうね…という難しさ。

それでも自分が読めたのだから、同じレベルの類書よりは圧倒的に要求される物は少ない。対象読者、あんまり居ないのかなぁ。この辺が精一杯なのかもしれない。

という事で読むのはめっちゃ辛かったが、凄くいろんな事を学んだ。確率論の理解度は跳ね上がって、現代的な議論に参加する下地を作ってくれた。とても助かった。

でも誰か、これの行間埋めたバージョン作って。ほんとお願い…