確率と分布関数(補遺)
ブログという形式は,本来数式を用いて厳密な議論をする場としては向いてないと私自身も思ってはいますが,敢えて私的な思考体験の覚え書きの場として使っています。
私の場合は,内容の概念的咀嚼不足,語彙的解釈,国語的解釈の不足や説明力不足が多々あるため,自然科学についての話を数式のない文章だけで済ますというのは事実上不可能です。
確率と分布というテーマの記事シリーズについても,教科書から昔まとめたノートの羅列を単に垂れ流しているだけで,自分自身でも概念の本質を理解しているかどうか定かでないものもあるようです。
ノートの中で,コーヒー・ブレイク,あるいは息抜きとして書いてあった部分も記事として残しておきます。
まず,簡単な確率論の歴史についての覚え書きです。
※数学としての確率論は17世紀に2人の幾何学者パスカル(Pascal)とフェルマー(Fermat)とのカルタ遊び(賭博?)に関する往復書簡に始まるとされています。
それ以来発展してきた古典確率論は,事象に内在する先験確率論が起源です。そして,統計的研究が進むにつれて経験的確率論も唱えられました。
古典確率論の流れは,順列・組合わせ,および2項係数やその三角形の図形的配置(パスカルの三角形)との関係,魔方陣などの幾何学的確率論へと続いてゆき,やがてニュートン(Newton),ライプニッツ(Leibniz)に始まる微分積分学の発展と結び付いていわゆる解析的確率論が出現しました。
そして,これはラプラス(Laolace)の「確率の解析的理論」(1812)で集大成されました。
一方,近代確率論はコルモゴロフ(Kolmogorlov)の「確率論の基本概念(1933)」により基礎が確立された測度論的確率論に始まるものです。
これは数学的にはカントール(Cantor)によって体系化された集合論やルベーグ(Lebesgue)に始まる測度論に負うところが多く,数学として曖昧な確率概念を明確に定義し,幾つかの公理から出発して抽象数学の一分野として扱うというだけですから,古典確率論と概念的に対立するというわけではないようです。※
続いて情報理論の基礎に関しての小トピックです。
[定義1]:ある事象の予測確率がpであるとき,I(p)≡log(1/p)=-logpを自己情報量(self-information)という。そして,底を2としたときの自己情報量の単位をビット(bit)という。
[定義2]:n個の互いに排反な事象A1,A2,..,Anがあって,その生起確率がそれぞれp1,p2,..,pn (Σj=1npj=1)であるとき,情報量log2(1/pj)=-log2pjの期待値(平均値)をS(p1,p2,..,pn)で表わし,これを情報エントロピー(information entropy),または平均情報量(average information)という。
すなわち,S(p1,p2,..,pn)≡-p1log2p1-p2log2p2-..-pnlog2pn=-Σj=1npjlog2pjである。
[例]:無作為に投げて落ちたとき表の出る確率が正確に1/2の硬貨を繰り返し投げてはじめて表が出るまでの試行回数(最後の回も含める)を情報として伝達してもらう場合の情報エントロピーを求める。
(解):はじめて表が出るまでの試行回数がnである事象をAnとすると,pn=P(An)=1/2n (n=1,2,..,)です。
そこでS(p1,p2,..)=-Σn=1∞pnlog2pn=Σn=1∞n/2n=[Σn=1∞nxn]x=1/2=[x(d/dx){1/(1-x)}]x=1/2=[x/(1-x)2]x=1/2=2です。(終わり)
◎(注1):S(p1,p2,..)=S(1/2,1/4,1/8,1/16,..)=1/2+2/4+3/8+4/16+..=2なる事実は,表が出る確率が1/2のコインで,表が出るまでの平均試行回数が2回であるという至極当然なことを意味しているだけです。(注1終わり)
[性質1]:S(p1,p2,..,pn)≧0であり,等号はある1つのiに対してpi=1,pk=0 (k≠i)のときのみ成り立つ。
(証明):0≦x≦1のとき,-∞<log2x≦0より-xlog2x≧0です。0≦pj≦1なので-pjlog2pj≧0 (j=1,2,..,n)よりS(p1,p2,..,pn)=-Σj=1npjlog2pj≧0 を得ます。
等号は-p1log2p1=-p2log2p2=..=-pnlog2pn=0 のときだけです。
0≦pj≦1より-pjlog2pj=0 は,pj=0,またはlog2pj=0 ,つまり,pj=0,またはpj=1 を意味します。
しかし,Σj=1npj=1 ですから,これはある1つのiに対してpi=1,それ以外:k≠iではpk=0 を意味します。(証明終わり)
◎(注2):情報エントロピーSが最小値:ゼロを取るのは,生起する可能性のあるn個の事象A1,A2,..,Anのうち,既にある1つの事象Aiを取ることが100%確定していて曖昧さは全くない場合です。(注2終わり)
[性質2]:S(p1,p2,..,pn)≦S(1/n,1/n,..,1/n)=log2n
(証明):関数fをf(p1,p2,..,pn)≡p1+p2+..+pn-1=Σj=1npj-1で定義するとΣj=1npj=1,つまりf(p1,p2,..,pn)=0 のときΣj=1n(∂f/∂pj)dpj=0です。
そこでf(p1,p2,..,pn)=0 の条件付きでS(p1,p2,..,pn)が最大になるための条件は,ラグランジュの未定係数法によりΣj=1n{(∂S/∂pj)+λ(∂f/∂pj)}dpj=0 です。
これから,(∂S/∂pj)+λ(∂f/∂pj)=0 (j=1,2,..,n)ですが,S(p1,p2,..,pn)=-Σj=1npjlog2pjより∂S/∂pj=-log2pj-log2e,∂f/∂pj=1なので,-log2pj-log2e+λ=0 を得ます。
故にpj=2λ/e=(一定)です。
そこで,Σj=1npj=1 よりpj=1/n(一定)がS(p1,p2,..,pn)のΣj=1npj=1 の条件付き極値を与えます。このとき,2λ=e/n,λ=log2e-log2nで,S(p1,p2,..,pn)=log2nです。
これが,S(p1,p2,..,pn)の"唯一の極大値=最大値"を与えることは自明です。(証明終わり)
◎(注3):情報エントロピーが最大値を取るのは,可能なn個の事象A1,A2,..,Anのうち,事象Aiを取る確率が全て等しい場合,つまり,可能性が最も曖昧で情報の与える状態が最も乱雑な場合です。
例えば,空間の対称性という意味では,それが一様で等方的なら最もエントロピーが高いのですが,もしも対称性が破れてある位置やある方向が特別になればエントロピーは小さくなります。
生物の進化のような複雑化の現象は無方向性の混沌状態に特別な方向性を与えるものと考えられ,こうしたものは散逸構造に由来すると言われています。(注3終わり)
[性質3]:pj≧0,qj≧0 (j=1,2,..,n)がΣj=1npj=1,Σj=1nqj=1を満たすならば,-Σj=1npjlog2pj≦-Σj=1npjlog2qjなる不等式が成り立つ。
(証明):一般に,自然数の組:k1,k2,..,knと非負の実数の組:a1,a2,..,anに対し,不等式(a1k1a2k2..ankn)1/ m≦(Σj=1nkjaj)/m;m≡k1+k2+..+knが成立します。
ただし,等号はa1=a2=..=anのときです。
これは,統計学で有名な(相加平均)≧(相乗平均)という公式です。(2006年9/3の記事「n変数の相加平均と相乗平均)」を参照)
この不等式でpj=kj/mと置けば,a1p1a2p2..anpn≦Σj=1npjajとなります。さらにaj=qj/pjなら,(q1/p1)p1(q2/p2)p2..(qn/pn)pn≦Σj=1nqj=1です。
等号はq1/p1=q2/p2=..=qn/pn(=1)のときです。
つまり,p1p1p2p2..pnpn≧q1p1q2p2..qnpnが成立して,等号はpj=qj (j=1,2,..,n)のときだけです。
この両辺の2の対数を取れば,-Σj=1npjlog2pj≦-Σj=1npjlog2qjが得られます。(証明おわり)
[性質4]:n個の互いに排反事象A1,A2,..,Anの生起確率をそれぞれp1,p2,..,pn (Σj=1npj=1)とする。
さらに,特にpn=q1+q2>0;q1≧0,q2≧0 なら,S(p1,p2,..,pn-1,q1,q2)=S(p1,p2,..,pn-1,pn)+pnS(q1/pn,q2/pn)なる等式が成立する。
(証明):S(p1,p2,..,pn-1,q1,q2)=-p1log2p1-p2log2p2-..-pn-1log2pn-1-q1log2q1-q2log2q2=-p1log2p1-p2log2p2-..-pn-1log2pn-1-pnlog2pn+(q1+q2) log2pn-q1log2q1-q2log2q2 です。
そして,右辺=S(p1,p2,..,pn-1,pn)-q1log2(q1/pn)-q2log2(q2/pn)=S(p1,p2,..,pn-1,pn)+pn{-(q1pn)log2(q1/pn)-(q2pn)log2(q2/pn)}=S(p1,p2,..,pn-1,pn)+pnS(q1/pn,q2/pn) です。(証明おわり)
[例2]:(情報路の容量)
送信信号,受信信号の集合を,それぞれ,X≡{x1,x2,..,xm},Y≡{y1,y2,..,yn}と置く。
yjを受信したとき,どの信号が送られたかに関する曖昧さ(ambiguity)は,エントロピー:S(X|yj)≡-Σi=1mP(xi|yj)log2P(xi|yj)で表現されると考えられる。
ここにP(xi|yj)は条件付確率:P(xi|yj)≡P(xi,yj)/P(yj)を表わす。
(解説):S(X|yj)を全ての受信信号Y={y1,y2,..,yn}について平均したものを,"Yが与えられた下でのXに関する平均の曖昧さ"といい,S(X|Y)≡Σj=1nP(yj)S(X|yj)で表わすことにします。
S(X)がXの情報エントロピー:S(X)=-Σi=1mP(xi)log2P(xi)のとき,"(Yを観測することによって除かれるXに関する平均の曖昧さ)=(伝達される情報)"は,T(X,Y)≡S(X)-S(X|Y)(=エントロピーの減少量)で与えられます。
そこで,X→Yの情報路の容量(capacity)CをC≡maxP(xi)T(X,Y)なる式によって定義します。
もしも,任意のjに対し,xi=yjならP(xi|yj)=1でxi≠yjならP(xi|yj)=0 の場合なら,S(X|yj)=0 (j=1,2,..,n)なので,S(X|Y)=Σj=1nP(yj)S(X|yj)=0です。
したがって.容量はC≡maxP(xi)S(X)=maxP(xi){-Σi=1mP(xi)log2P(xi)}となります。つまり,受信により獲得する完全な情報量は最大エントロピーに等しいです。(了)
[性質4]:エントロピー:S(X,Y)=-Σi=1mΣj=1nP(xi,yj)log2P(xi,yj)は次の性質を持つ。
(1)S(X,Y)≦H(X)+H(Y)が成り立つ。ただし等号はP(xi,yj)=P(xi)P(yj)のときである。
(2)H(X|Y)≦H(X)が成り立つ。
(3)H(X,Y)=H(Y)+H(X|Y)が成り立つ。
(4)Yの結果がXの結果を一意的に決定するならH(X,Y)=H(Y)
(証明):(4)のみ証明します。(3):H(X,Y)=H(Y)+H(X|Y)においてH(X|Y)=0 より,H(X,Y)=H(Y)です。(証明終わり)
※情報エントロピーは統計物理学におけるボルツマン(Boltzmann)のH定理で常に減少関数であることが示される関数Hに対し,S=-Hで与えられる量です。
ただし,統計熱物理学における熱平衡時のエントロピーSは,その歴史的経緯から単位が異なっており,kBをボルツマン定数:kB=R/NA(Rはモル気体定数,NAはアボガドロ(Avogadro)数)としてS=-kBHなる量で与えられます。
参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会),豊田 正 著「情報の物理学」(講談社)
PS:プロ野球界のキムタク,37歳はまだ若い,クモ膜は回復可能だ。何とかガンバレ。。。http://sports.yahoo.co.jp/news/20100403-00000001-ykf-spo.html
PS2:頼まれもしないのに急に宣伝です。
北島忠雄 著「初級者将棋上達の方程式,手筋の公式(基礎編)」(日本将棋連盟) ,北島忠雄の将棋講座「すぐに使える一手損角換わり戦法」全26回 1050円 他 将棋チャンネルDVD発売中!!
| 固定リンク
| コメント (0)
| トラックバック (0)
最近のコメント