確率変数の話

みんな大好き確率変数。

だってそもそもに機械学習って入力Xが与えられた時に、Yの分布を

$P(Y|X)$

という条件つき確率として推計する物でしょ？とか言ったりする。 Yの分布ってなんだよ、とか、このPってなんだよ、という事はあんまり考えないでこういう物言いをしたりしがち。

そんなふうに機械学習においては普遍的に登場すると言っても良いくらい頻繁に使われる確率変数だけど、ここの定義はかなりへんてこでちゃんと勉強してないと「何を言っているんだ、お前は」という感じになりがち。

しかも英単語としてはrandom variable。ランダムな数って事か。なんだ、わかりそうじゃん、という事で、良く分かってない人も結構いい加減に使う。

ただ、理論的な話をする時には、確率変数、確率密度、分布、lawの区別をちゃんとしてないと何の話をしているかさっぱりわからない。最近のDeep Learningの論文ではこれらの空間の間を行ったり来たりして議論するので、 random variableをランダムな数でしょ？と思ってると壊滅的な事態となる。

そんな訳でハマりがちな確率変数について、この章では扱っていきたい。

古典的な定義

確率空間と同様に、確率変数も古典的な定義と測度論的な定義がある。で、古典的な定義が意味がわからないのも同様。

良くある確率変数の定義は、