309. 確率・統計

2010年4月 3日 (土)

確率と分布関数(補遺)

 ブログという形式は,本来数式を用いて厳密な議論をする場としては向いてないと私自身も思ってはいますが,敢えて私的な思考体験の覚え書きの場として使っています。

私の場合は,内容の概念的咀嚼不足,語彙的解釈,国語的解釈の不足や説明力不足が多々あるため,自然科学についての話を数式のない文章だけで済ますというのは事実上不可能です。

 確率と分布というテーマの記事シリーズについても,教科書から昔まとめたノートの羅列を単に垂れ流しているだけで,自分自身でも概念の本質を理解しているかどうか定かでないものもあるようです。

 ノートの中で,コーヒー・ブレイク,あるいは息抜きとして書いてあった部分も記事として残しておきます。

まず,簡単な確率論の歴史についての覚え書きです。

※数学としての確率論は17世紀に2人の幾何学者パスカル(Pascal)とフェルマー(Fermat)とのカルタ遊び(賭博?)に関する往復書簡に始まるとされています。

それ以来発展してきた古典確率論は,事象に内在する先験確率論が起源です。そして,統計的研究が進むにつれて経験的確率論も唱えられました。

古典確率論の流れは,順列・組合わせ,および2項係数やその三角形の図形的配置(パスカルの三角形)との関係,魔方陣などの幾何学的確率論へと続いてゆき,やがてニュートン(Newton),ライプニッツ(Leibniz)に始まる微分積分学の発展と結び付いていわゆる解析的確率論が出現しました。

そして,これはラプラス(Laolace)の「確率の解析的理論」(1812)で集大成されました。

一方,近代確率論はコルモゴロフ(Kolmogorlov)の「確率論の基本概念(1933)」により基礎が確立された測度論的確率論に始まるものです。

これは数学的にはカントール(Cantor)によって体系化された集合論やルベーグ(Lebesgue)に始まる測度論に負うところが多く,数学として曖昧な確率概念を明確に定義し,幾つかの公理から出発して抽象数学の一分野として扱うというだけですから,古典確率論と概念的に対立するというわけではないようです。※

続いて情報理論の基礎に関しての小トピックです。

[定義1]:ある事象の予測確率がpであるとき,I(p)≡log(1/p)=-logpを自己情報量(self-information)という。そして,底を2としたときの自己情報量の単位をビット(bit)という。

[定義2]:n個の互いに排反な事象A1,A2,..,Anがあって,その生起確率がそれぞれp1,p2,..,pnj=1nj=1)であるとき,情報量log2(1/pj)=-log2jの期待値(平均値)をS(p1,p2,..,pn)で表わし,これを情報エントロピー(information entropy),または平均情報量(average information)という。

すなわち,S(p1,p2,..,pn)≡-p1log21-p2log22-..-pnlog2n=-Σj=1njlog2jである。

[例]:無作為に投げて落ちたとき表の出る確率が正確に1/2の硬貨を繰り返し投げてはじめて表が出るまでの試行回数(最後の回も含める)を情報として伝達してもらう場合の情報エントロピーを求める。

 

(解):はじめて表が出るまでの試行回数がnである事象をAnとすると,pn=P(An)=1/2n (n=1,2,..,)です。

 

 そこでS(p1,p2,..)=-Σn=1nlog2n=Σn=1n/2n=[Σn=1nxn]x=1/2=[x(d/dx){1/(1-x)}]x=1/2=[x/(1-x)2]x=1/2=2です。(終わり)

  

◎(注1):S(p1,p2,..)=S(1/2,1/4,1/8,1/16,..)=1/2+2/4+3/8+4/16+..=2なる事実は,表が出る確率が1/2のコインで,表が出るまでの平均試行回数が2回であるという至極当然なことを意味しているだけです。(注1終わり)

 

[性質1]:S(p1,p2,..,pn)≧0であり,等号はある1つのiに対してpi=1,pk=0 (k≠i)のときのみ成り立つ。

(証明):0≦x≦1のとき,-∞<log2x≦0より-xlog2x≧0です。0≦pj≦1なので-pjlog2j≧0 (j=1,2,..,n)よりS(p1,p2,..,pn)=-Σj=1njlog2j≧0 を得ます。

 

 等号は-p1log21=-p2log22=..=-pnlog2n=0 のときだけです。

 0≦pj≦1より-pjlog2j=0 は,pj=0,またはlog2j=0 ,つまり,pj=0,またはpj=1 を意味します。

 

 しかし,Σj=1nj=1 ですから,これはある1つのiに対してpi=1,それ以外:k≠iではpk=0 を意味します。(証明終わり)

(注2):情報エントロピーSが最小値:ゼロを取るのは,生起する可能性のあるn個の事象A1,A2,..,Anのうち,既にある1つの事象Aiを取ることが100%確定していて曖昧さは全くない場合です。(注2終わり)

[性質2]:S(p1,p2,..,pn)≦S(1/n,1/n,..,1/n)=log2

(証明):関数fをf(p1,p2,..,pn)≡p1+p2+..+pn-1=Σj=1nj-1で定義するとΣj=1nj=1,つまりf(p1,p2,..,pn)=0 のときΣj=1n(∂f/∂pj)dpj=0です。

 

 そこでf(p1,p2,..,pn)=0 の条件付きでS(p1,p2,..,pn)が最大になるための条件は,ラグランジュの未定係数法によりΣj=1n{(∂S/∂pj)+λ(∂f/∂pj)}dpj=0 です。

 これから,(∂S/∂pj)+λ(∂f/∂pj)=0 (j=1,2,..,n)ですが,S(p1,p2,..,pn)=-Σj=1njlog2jより∂S/∂pj=-log2j-log2e,∂f/∂pj=1なので,-log2j-log2e+λ=0 を得ます。

 

 故にpj=2λ/e=(一定)です。

そこで,Σj=1nj1 よりpj=1/n(一定)がS(p1,p2,..,pn)のΣj=1nj=1 の条件付き極値を与えます。このとき,2λ=e/n,λ=log2e-log2nで,S(p1,p2,..,pn)=log2nです。

 これが,S(p1,p2,..,pn)の"唯一の極大値=最大値"を与えることは自明です。(証明終わり)

(注3):情報エントロピーが最大値を取るのは,可能なn個の事象A1,A2,..,Anのうち,事象Aiを取る確率が全て等しい場合,つまり,可能性が最も曖昧で情報の与える状態が最も乱雑な場合です。

例えば,空間の対称性という意味では,それが一様で等方的なら最もエントロピーが高いのですが,もしも対称性が破れてある位置やある方向が特別になればエントロピーは小さくなります。

 

生物の進化のような複雑化の現象は無方向性の混沌状態に特別な方向性を与えるものと考えられ,こうしたものは散逸構造に由来すると言われています。(注3終わり)

[性質3]:pj≧0,qj≧0 (j=1,2,..,n)がΣj=1nj=1,Σj=1nj=1を満たすならば,-Σj=1njlog2j≦-Σj=1njlog2jなる不等式が成り立つ。

(証明):一般に,自然数の組:k1,k2,..,knと非負の実数の組:a1,a2,..,anに対し,不等式(a1k12k2..ankn)1/ m≦(Σj=1njj)/m;m≡k1+k2+..+knが成立します。

 

 ただし,等号はa1=a2=..=anのときです。

これは,統計学で有名な(相加平均)≧(相乗平均)という公式です。(2006年9/3の記事n変数の相加平均と相乗平均)」を参照)

 この不等式でj=kj/mと置けば,a1p12p2..anpn≦Σj=1njjとなります。さらにaj=qj/pjなら,(q1/p1)p1(q2/p2)p2..(qn/pn)pn≦Σj=1nj=1です。

 

 等号はq1/p1=q2/p2=..=qn/pn(=1)のときです。

つまり,p1p12p2..pnpn≧q1p12p2..qnpnが成立して,等号はpj=qj (j=1,2,..,n)のときだけです。

 

この両辺の2の対数を取れば,-Σj=1njlog2j≦-Σj=1njlog2jが得られます。(証明おわり)

[性質4]:n個の互いに排反事象A1,A2,..,Anの生起確率をそれぞれp1,p2,..,pnj=1nj=1)とする。

 

 さらに,特にpn=q1+q2>0;q1≧0,q2≧0 なら,S(p1,p2,..,pn-1,q1,q2)=S(p1,p2,..,pn-1,pn)+pnS(q1/pn,q2/pn)なる等式が成立する。

(証明):S(p1,p2,..,pn-1,q1,q2)=-p1log21-p2log22-..-pn-1log2n-1-q1log21-q2log22=-p1log21-p2log22-..-pn-1log2n-1-pnlog2n+(q1+q2) log2n-q1log21-q2log22 です。

そして,右辺=S(p1,p2,..,pn-1,pn)-q1log2(q1/pn)-q2log2(q2/pn)=S(p1,p2,..,pn-1,pn)+pn{-(q1n)log2(q1/pn)-(q2n)log2(q2/pn)}=S(p1,p2,..,pn-1,pn)+pnS(q1/pn,q2/pn) です。(証明おわり)

[例2]:(情報路の容量)

送信信号,受信信号の集合を,それぞれ,X≡{x1,x2,..,xm},Y≡{y1,y2,..,yn}と置く。

 

jを受信したとき,どの信号が送られたかに関する曖昧さ(ambiguity)は,エントロピー:S(X|yj)≡-Σi=1mP(xi|yj)log2P(xi|yj)で表現されると考えられる。

 ここにP(xi|yj)は条件付確率:P(xi|yj)≡P(xi,yj)/P(yj)を表わす。

  

(解説):(X|yj)を全ての受信信号Y={y1,y2,..,yn}について平均したものを,"Yが与えられた下でのXに関する平均の曖昧さ"といい,S(X|Y)≡Σj=1nP(yj)S(X|yj)で表わすことにします。

(X)がXの情報エントロピー:S(X)=-Σi=1mP(xi)log2P(xi)のとき,"(Yを観測することによって除かれるXに関する平均の曖昧さ)=(伝達される情報)"は,T(X,Y)≡S(X)-S(X|Y)(=エントロピーの減少量)で与えられます。

そこで,X→Yの情報路の容量(capacity)CをC≡maxP(xi)T(X,Y)なる式によって定義します。

もしも,任意のjに対し,xi=yjならP(xi|yj)=1でxi≠yjならP(xi|yj)=0 の場合なら,S(X|yj)=0 (j=1,2,..,n)なので,S(X|Y)=Σj=1nP(yj)S(X|yj)=0です。

 

したがって.容量はC≡maxP(xi)S(X)=maxP(xi){-Σi=1mP(xi)log2P(xi)}となります。つまり,受信により獲得する完全な情報量は最大エントロピーに等しいです。(了)

[性質4]:エントロピー:S(X,Y)=-Σi=1mΣj=1nP(xi,yj)log2P(xi,yj)は次の性質を持つ。

(1)S(X,Y)≦H(X)+H(Y)が成り立つ。ただし等号はP(xi,yj)=P(xi)P(yj)のときである。

(2)H(X|Y)≦H(X)が成り立つ。

(3)H(X,Y)=H(Y)+H(X|Y)が成り立つ。

(4)Yの結果がXの結果を一意的に決定するならH(X,Y)=H(Y)

(証明):(4)のみ証明します。(3):H(X,Y)=H(Y)+H(X|Y)においてH(X|Y)=0 より,H(X,Y)=H(Y)です。(証明終わり)

※情報エントロピーは統計物理学におけるボルツマン(Boltzmann)のH定理で常に減少関数であることが示される関数Hに対し,S=-Hで与えられる量です。

ただし,統計熱物理学における熱平衡時のエントロピーSは,その歴史的経緯から単位が異なっており,Bをボルツマン定数:kB=R/NA(Rはモル気体定数,NAはアボガドロ(Avogadro)数)としてS=-kBHなる量で与えられます。

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会),豊田 正 著「情報の物理学」(講談社)

 

PS:プロ野球界のキムタク,37歳はまだ若い,クモ膜は回復可能だ。何とかガンバレ。。。http://sports.yahoo.co.jp/news/20100403-00000001-ykf-spo.html

  

PS2:頼まれもしないのに急に宣伝です。

 

 北島忠雄 著「初級者将棋上達の方程式,手筋の公式(基礎編)」(日本将棋連盟) ,北島忠雄の将棋講座「すぐに使える一手損角換わり戦法」全26回 1050円 他 将棋チャンネルDVD発売中!!

   

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル) 

| | コメント (0) | トラックバック (0)

2010年3月24日 (水)

確率と分布関数(11)(区間推定)(終了)

 確率と分布関数の続きです。今日の記事でこの課題は終わりです。 

[定義14-1]:母集団分布p(x;θ)を持つ母集団からの任意標本をX1,X2,..,Xnとし,適当な正の数:(1-α)>0 (例えば 0.95(α=0.05),0.90(α=0.10),..)を与えます。

これに対して,これらの標本の適当な関数θ^1(X1,X2,..,Xn),θ^2(X1,X2,..,Xn)を選んでP(θ^1(X1,X2,..,Xn)<θ<θ^2(X1,X2,..,Xn))=1-αが成立するようにできるとき,この区間(θ^1,θ^2)を信頼度(confidence level)が(1-α)×100%の信頼区間(confidence interval)という。

 

また,θ^1,θ^2の値を信頼限界(confidence limit)という。

[例14-2]:信頼度:(1-α)×100%の信頼区間(θ^1,θ^2)を求める方法

(1)任意標本をX1,X2,..,Xnと母数θを含む確率変数(統計量):T(X1,X2,..,Xn;θ)であって,その確率密度関数:g(t)がθを含まないものを選ぶ。

(2)P(t1<T(X1,X2,..,Xn;θ)<t2)=∫t1t2g(t)dt=1-α (0<α<1)を満たすt1,t2を求める。

(3)左辺のt1<T(X1,X2,..,Xn;θ)<t2を変形してP(θ^1(X1,X2,..,Xn)<θ<θ^2(X1,X2,..,Xn))=1-αを満たす(θ^1,θ^2)を求める。

[例14-3]:正規母集団(normal population):N[μ,σ2]の母平均μの区間推定

(1)σ2が既知(σ2=σ02)の場合

 母集団分布の確率密度関数はp(x;μ)=(2π)-1/2σ0-1exp{-(x-μ)2/(2σ02)}です。

任意標本X1,X2,..,Xnに対し,標本平均を<X>≡Σj=1nj/nと置き,<X>をμの推定量とすると,これは明らかにE[<X>]=μを満たすのでμの不偏推定量(unbiased estimator)です。

また,Var[<X>]=σ02/nにより推定量の有効性(efficiency)はe[<X>]≡(nE[{∂[logp(X;μ)]/∂μ}2]Var[<X>])-1=1です。そしてlim n→∞ P(|<X>-μ|≧ε)=0 も成立するため,<X>は有効推定量,一致推定量(consistent estimator)でもあります。

そして,変数<X>は正規分布:N[μ,σ02/n]に従うため,変数:n1/2(<X>-μ)/σ0は標準正規分布:N[0,1]に従います。

 

それ故,1-α=P(-x0<n1/2(<X>-μ)/σ0<x0)=P(<X>-x0σ0/n1/2<μ<<X>+x0σ0/n1/2);(2π)-1/2-x0x0exp(-t2/2)dt=1-α,or (2π)-1/20x0exp(-t2/2)dt=(1-α)/2と表現できます。

 μ^1≡<X>-x0σ0/n1/2,μ^2≡<X>+x0σ0/n1/2と置くと,これらはX1,X2,..,Xnの関数です。結局,この場合の(1-α)×100%信頼区間は,(μ^1,μ^2)≡(<X>-x0σ0/n1/2,<X>+x0σ0/n1/2)となります。

μ^1,μ^2は確率変数ですが,区間の長さは(μ^2-μ^1)=2x0σ0/n1/2で一定です。

 もしも,α=0.05を与えて 1-α=0.95,or (1-α)/2=0.475 とすればx0≒1.96なので,95%信頼区間は,(<X>-1.96σ0/n1/2,<X>+1.96σ0/n1/2)で与えられることがわかります。

(2)σ2が未知の場合

 任意標本X1,X2,..,Xnに対して,標本平均を<X>≡Σj=1nj/nと置き,やはり<X>をμの推定量μ^とします。前と同様,E[<X>]=μであり<X>はμの不偏推定量です。

また,S2≡Σj=1n(Xj-<X>)2/nとします。こうすればnS22=Σj=1n{(Xj-<X>)22}です。

 

ただし,今はμの推定量<X>を問題にしているので余談になりますが,3/12の記事「確率と分布関数(8)」の[定理11-5]:"E[{Σj=1n(Xj-<X>)2}/(n-1)]=σ2"によれば,分散σ2の不偏推定量はS2ではなく不偏分散:S02≡Σj=1n{(Xj-<X>)2/(n-1)}です。

そして,n変数:X1-<X>,X2-<X>,..,Xn-<X>は全て正規分布:N[0,σ2]を持ちますが,Σj=1n(Xj-<X>)=0 ですから,独立な確率変数は(n-1)個だけです。

そこで,2/19の記事「確率と分布関数(4)」の[定理6-15の系]:"X1,X2,..,Xnが全て正規分布N[μ,σ2]を持つn個の独立確率変数ならばΣj=1n{(Xj-μ)22}は自由度nのχ2分布を持つ。"からnS22=Σj=1n{(Xj-<X>)22}は自由度(n-1)のχ2分布に従います。

 また,(<X>-μ)/(σ/n1/2)は標準正規分布:N[0,1]に従うことがわかっています。

確率と分布関数(4)の[定理6-17]:"確率変数XとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならばT≡X/(Y/n)1/2は自由度nのt分布を持つ。"により,T≡{(<X>-μ)/(σ/n1/2)}/[nS2/{(n-1)σ2}]1/2=(n-1)1/2(<X>-μ)/S=(<X>-μ)/S0と置けばTは自由度(n-1)のt分布に従います。

 

 よって,1-α=P(-t0<(<X>-μ)/S0<t0)=P(<X>-t00<μ<<X>+x00);[Γ(n/2)/{(n-1)πΓ((n-1)/2)}1/2]∫-t0t0{1+t2/(n-1)}-n/2dt=1-α,or );[Γ(n/2)/{(n-1)πΓ((n-1)/2)}1/2]∫0t0{1+t2/(n-1)}-n/2dt=(1-α)/2を得ます。

そこで,この場合は(1-α)×100%信頼区間は(μ^1,μ^2)≡(<X>-t00,<X>+t00)となります。

ここまで,簡単なケースについて母集団からの標本によって母数の「区間推定(interval estimation)」を行うという概念を紹介しましたが,この他,同じく母集団からの標本に基づいて,"ある仮説=帰無仮説(null hypothesis)"の「仮説検定(test of hypothesis)」を行なうという概念もあります。

こちらは,"標本から得られる統計量有意水準(significance level):αの母集団の確率分布の(1-α)の範囲からはずれていれば,母数に関する仮説が誤っている可能性が強い。"と判断します。

まあ,推定と検定はその推論の向きが逆の関係であるというだけで本質的な差異はないと思われるので,検定の詳細は省略します。

少し具体的な検定の例として2007年3/23の記事「タミフルと異常行動の因果性」があるので,よかったら参照してください。

さて,重回帰式(multiple regression):Y=x1β1+x2β2+..+xpβp+ε=Σk=1pkβk+εの回帰係数(regression voefficients):β^1,β^2,..β^pの区間推定,または有意性検定を論じるために,前記事「確率と分布関数(10)」の最後の部分を再掲します。

(再掲記事):

[定義13-5]:n個の標本Y1,Y2,..,YnをYj=xj1β1+xj2β2+..+xjpβp+εj=Σk=1pjkβk+εj (j=1,2,..,n)と置く。ただしβk(k=1,2,..,p)は未知母数でありxjk(j=1,2,..,n;k=1,2,..,p)は既知定数である。

εj(j=1,2,..,n)は誤差で,これらは互いに独立な確率変数であって全てN[0,σ2]に従うと仮定する。これを線形回帰モデルという。

β^kをβkの推定量とするとき,Yj-Σk=1pjkβ^k(j=1,2,..,n)を残差(residual)という。残差の平方和:Q(β^)=Σj=1n(Yj-Σk=1pjkβ^k)2を最小にする回帰係数:β^=(β^1,β^2,.., β^p)を求める方法を最小二乗法(method of minimum square)という。

先にQ(β^1,β^2)の最小値を与えるβ^1,β^2を回帰係数とする回帰直線y=β^1+β^2xを求めた手続きを単回帰(sigle redression)と呼ぶのに対して上記のp≧3の手続きを重回帰(multiple linear regression)という。

そして,Q(β^)が最小になるための必要条件:-(1/2)(∂Q/∂β^k)=Σj=1n[xjk{Yj-(xj1β^1+xj2β^2+..+xjpβ^p)}]=0 (k=1,2,..,p)を正規方程式(normal equations)と呼ぶ。

(注):具体的に正規方程式を解きます。

正規方程式はΣj=1n(xjkj1β^1+xjkj2β^2+..+xjkjpβ^p)=Σj=1njkj (k=1,2,..,p)です。

kl≡Σj=1njkjl,Dk≡Σj=1njkjと置けば,正規方程式はΣl=1pklβ^l=Dk (k=1,2,..,p)と書けます。これは(p×p)係数行列Sとp次元縦ベクトル:β^≡t(β^1,β^2,..,β^p),t(D1,D2,..,Dp)による行列表現ではSβ^=です。

また,t(Y1,Y2,..,Yn),kt(x1k,x2k,..,xnk) (k=1,2,..,p)なるn次元縦ベクトルを用いるとSkl=Σj=1njkjltkl,Dk=Σj=1njkjtk(k,l=1,2,..,p)ですから,(n×p)行列XをX≡(1,2,..,p)で定義すると,S=tXX,tと書けます。

さらに,Yj=Σk=1pjkβk+εj (j=1,2,..,n)もβt12,..,βp),εt12,..,εn)により,=Xβεですからt=Sβtεです。

S=tXXについてdetS≠0と仮定すれば,T=(tij)≡S-1が存在するので正規方程式Sβ^=から,"β^=S-1=Tなる解=回帰係数"が得られます。

X=(1,2,..,p)は既知定数成分の行列なのでS=tXX,T=S-1も確率変数ではないため,E[β^]=S-1E[]=S-1E[Sβtε]=E[β]+S-1 tXE[ε]=βよりβ^はβの不偏推定量です。(注終わり)※

[定理13-6]:Cov(β^i,β^j)=tijσ2,特にVar(β^i)=tiiσ2 (i,j=1,2,..,p),またQ(β^)=Σj=1nj2-Σk=1pkβ^kであり,E[Q]=(n-p)σ2である。(再掲終わり)◎

さて,Q(β^)を改めてSe2≡Σj=1n(Yj-Σk=1pjkβ^k)2と定義すれば,定理からE[Se2]=E[Q]=(n-p)σ2です。そしてコクラン(Cochran)によれば,Se22は自由度(n-p)のχ2分布に従います。

p個の説明変数x1,x2,..,xpと定数項β0を持つ重回帰式:Y=β0+x1β1+..+xpβp+ε=β0+Σk=1pkβk+εは,(p+1)個の説明変数x1,x2,..,xp+1による式:Y=x1β1+x2β2+..+xp+1βp+1+ε=Σk=1p+1kβk+εにおいてx1=1とした後,変数の添字を(xkk) → (xk-1k-1)とシフトしたものに一致します。

そこで,このときの誤差の二乗和Se2=Σj=1n(Yj-β^0-Σk=1pjkβk^)2から作った統計量Se22は自由度(n-p)ではなく自由度(n-p-1)のχ2分布に従います。

そこで,Ve≡Se2/(n-p-1)と置くと,これはE[Ve]=σ2を満たすので,これが重回帰モデルにおける不偏分散です。

これは,確かに単回帰Y=β^1+β^2x(p+1=2)のときの不偏分散Se2/(n-2)の拡張になっています。

 

不偏分散Veを用いると,(n-p-1)Ve=Se22が自由度(n-p-1)のχ2分布に従うと表現できます。

一方,回帰係数:β^i(i=0,1,2,..,p)はβ^=S-1=T,tでE[β^i]=βi,Var(β^i)=tiiσ2により,正規分布N[βi,tiiσ2]に従うことがわかります。そこで(βi-βi)/(tii1/2σ)は標準正規分布N[0,1]に従います。

そこで,再び先述の「確率と分布関数(4)」の[定理6-17]:"確率変数XとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならばT≡X/(Y/n)1/2は自由度nのt分布を持つ。"から,(β^i-βi)/(tiie)1/2は自由度(n-p-1)のt分布に従うことが言えます。

以上から,t分布の(1-α)信頼区間:(-t0,t0)を,1-α=P(-t0<(β^i-βi)/(tiie)1/2<t0)で与えることができます。

 

このt0値を具体的にt分布表から読めば(1-α)信頼区間が得られるわけです。例えば自由度が(n-p-1)=60の場合にα=0,05,1-α=0.95の95%信頼区間を与えるt0はt0=2.00です。

なお,これを書く動機となった先輩から受けた質問の2010年2/5の2度目のメールの内容は以下の通りです。

:一寸,多重回帰で質問です。

「t値」って分かりやすい言葉で説明したらどうなりますか?

t値の式は,[変量iのt値(i)]=[回帰係数(i)/標準誤差(i)]です。

ただし,標準誤差(i)=root(sii・Ve)

ii:偏差平方和,偏差積和行列の逆行列のii成分

e:不偏分散=(残差平方和)/(n-p-1)

n:サンプル数

p:説明変量の数,です。

この変量iの標準誤差(i)が良く分かりません。

,(sii:偏差平方和,偏差積和行列の逆行列のii成分)とは何のことかも分かりません。

 EXCELである説明変量を100倍して回帰を取ったら,ちゃんと回帰係数は元の100分の1になるけれどt値は変わらないんだね。

 

 標準誤差が偏差平方和,偏差積和行列の逆行列を基にして求められているからだろうと思うけれど。

それと一般に(ネットで見たけれど),t値の絶対値が2以上だったら良いというのはどういう理由か分かりますか?

以上,簡単な日本語で説明できればお願いします。◎

(注):メール上の行列S=(sij)は私の説明ではT=(tij)=S-1なので,siiにはtiiが対応している他は,共通の記号を使用しています。これで質問に対する回答は全て答えたと思います。(了)※

しかし,ちょっとした質問を動機にして昔(約20年前)勉強したノ-ト3冊全部を読み直し,自分の復習やより深い理解を目指してくどい説明をしたためウザイと取られたと想像します。

しかし,私の勝手な自己満足の方は十分充足されました。

 

取り合えず,シリーズ記事の1つのテーマは片付いたので,次から別の課題に集中できます。

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

PS:3/25(木) 朝起きたら頭が痛くて寒気がする。。ウーン,この身体は天侯,気温通りだなあ。。部屋の中に古い精神安定剤が落ちてたのでそれを飲んで寝ます。

     

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル) 

| | コメント (1) | トラックバック (3)

2010年3月23日 (火)

確率と分布関数(10)(線形回帰の基礎)

確率と分布関数の続きです。 

 まず,最小二乗法の話をします。これは必ずしも確率の話ではなく,実際の観測値をモデル予測式を想定して予測する手法の1つです。

すなわち,多数の実測値データとモデル式による予測値の差の二乗和を最小にする予測モデル式中の最適パラメータ値を求める方法です。

[定義13-1]:x-y平面上にn個の点(xj,yj)(j=1,2,..,n)(散布図)が与えられているとする。

幾つかのパラメータを持つモデル式:y=f(x)に対し,x=xjにおける実測値yjと予測値y=f(xj)の差εj≡yj-f(xj)の二乗和:Q≡ε12+ε22+..+εn2=Σj=1n[yj-f(xj)]2を最小にする曲線(=回帰曲線:regression curve)f(x)(またはそのパラメータ)を定める方法を最小二乗法(method of minimum square)という。

 特に,予測式:f(x)が直線f(x)=β1+β2xの場合はx=xjにおける差はεj≡yj-(β1+β2j)(j=1,2,..,n)である。二乗和:Q=Q(β12)≡ε12+ε22+..+εn2=Σj=1n[yj-(β1+β2j)]2を最小にするβ12の値を求める方法は特に線形最小二乗法(linear method)といわれる。

線形最小二乗法でQの最小値を与える係数値をβ1=β^12=β^2とするとき,最適直線y=β^1+β^2xを回帰直線(regression line),係数β^1,β^2を回帰係数(regression coefficients)と呼ぶ。

12)が最小になるための2つの必要条件は∂Q/∂β1=-2Σj=1n[yj-(β1+β2j)]=0 ,および∂Q/∂β2=-2Σj=1n[xj{yj-(β1+β2j)}]=0 である。これを正規方程式(normal equations)という。

正規方程式を満たす解の値β1=β^12=β^2を解けば,β^2={Σj=1njj-n<x><y>}/{Σj=1nj2-n<x>2}=Σj=1n(xj-<x>)(yj-<y>)/{Σj=1n(xj-<x>)2},β^1=<y>-β^2<x>を得る。

 

ただし,<>は標本平均,すなわち<x>≡Σj=1nj/n,<y>≡Σj=1nj/nである。

さらに,∂Q2/∂β12=2n,∂Q2/∂β1∂β2=2Σj=1nj,∂Q2/∂β22=2Σj=1nj2なので,(∂Q2/∂β1∂β2)2-(∂Q2/∂β12)(∂Q2/∂β22)=4(Σj=1nj)2-4n(Σj=1nj2)=-4nΣj=1n (xj2-<x>)2≦0 が成り立つ。

 

それ故,β1=β^12=β^2は確かにQの"唯一の極小値=最小値"を与える。

[定理13-2]:ある変量Yが他の変数xに対してY=β1+β2x+ε (εは正規分布:N[0,σ2]に従う誤差)と表わされるとき,最尤法におけるβ12の推定値は最小二乗法による回帰係数と一致する。

(証明):x=xjのときのYの測定値をyjとすると,Yは正規分布N[β1+β2j2]に従うため,"Y1,Y2,..,Ynの同時確率分布関数=尤度関数"はL=(2πσ2)-n/2exp[-Σj=1n{yj-(β1+β2j)}2/(2σ2)]=(2πσ2)-n/2exp[-Q(β12)/(2σ2)]で与えられます。

 したがって,尤度(likelihood)Lを最大にするβ12がQ=Q(β12)を最小にするβ12に等しいことは明らかです。(証明終わり)

[定理13-3]:[定理13-2]と同じ条件下でY=β1+β2x+εを与える推定量β1=β^12=β^2は不偏推定量(unbiased estimator)である。

(証明):今のケースではβ^2=Σj=1n(xj-<x>)(Yj-<Y>)/{Σj=1n(xj-<x>)2},β^1=<Y>-β^2<x>です。

1,x2,..,xnが確定値であるのに対し,これらに対応するY1,Y2,..,Ynは様々な値を取る母集団の任意標本であると考えられます。

すると,Yj=β1+β2j+εj,かつE[εj]=0 からE[β^2]=Σj=1n(xj-<x>)E[Yj-<Y>]/{Σj=1n(xj-<x>)2}=Σj=1n(xj-<x>){β2(xj-<x>)}/{Σj=1n(xj-<x>)2}=β2,E[β^1]=E[<Y>-β^2<x>]=β1+β2<x>-β2<x>=β1を得ます。(証明終わり)

[定理13-4]:回帰係数β^1,β^2の分散,共分散は次の性質を有する。

 

(1)Var[β^1]=σ2j=1nj2)/{nΣj=1n(xj-<x>)2},Var[β^2]=σ2/{Σj=1n(xj-<x>)2},Cov[β^1,β^2]=-σ2<x>/{Σj=1n(xj-<x>)2}である。

 

(2)V≡Σj=1n{Yj-(β1+β2j)}2/(n-2)は,"分散:σ2の不偏推定量=不偏分散"である。

(証明):(1)β^2=Σj=1n(xj-<x>)(Yj-<Y>)/{Σj=1n(xj-<x>)2}にYj=β1+β2j+εj,および<Y>=β1+β2<x>+<ε>を代入すると,β^2=Σj=1n(xj-<x>){β2(xj-<x>)+εj-<ε>}/{Σj=1n(xj-<x>)2}となります。

 そこで,β^2-β2=Σj=1n(xj-<x>)(εj-<ε>)/{Σj=1n(xj-<x>)2}ですが,E[β^2-β2]=0 なのでVar[β^2]=E[(β^2-E[β2])2]=E[(β^2-β2)2]=E[{Σj=1n(xj-<x>)(εj-<ε>)}2]/{Σj=1n(xj-<x>)2}2を得ます。

ところが,E[εj]=E[<ε>]=0,E[εj]=σ2なのでVar[β^2]=E[Σj=1n(xj-<x>)2j-<ε>)2]/{Σj=1n(xj-<x>)2}2=Σj=1n(xj-<x>)2E[(εj-<ε>)2]/{Σj=1n(xj-<x>)2}2=E[εj2]/{Σj=1n(xj-<x>)2}=σ2/{Σj=1n(xj-<x>)2}です。

それ故,Var[β^1]=Var[Y-β^2<x>]=Var[Y]+<x>2Var[β^2]=σ2/n+σ2<x>2/{Σj=1n(xj-<x>)2}=σ2j=1nj2)/{nΣj=1n(xj-<x>)2}が得られます。

また,Cov[β^1,β^2]=E[β^1β^2]-β1β2=E[(<Y>-β^2<x>)β^2]-β1β2=E[<Y>β^2]-(Var[β^2]+β22)<x>-β1β2です。

ここで<Y>=β1+β2<x>+<ε>,E[β^2]=β2より,E[<Y>β^2]=β1β2+β22<x>+E[β^2<ε>]です。

右辺最後の項は,E[β^2<ε>]=E[Σj=1n(xj-<x>)(Yj-<Y>)<ε>]/{Σj=1n(xj-<x>)2}です。

 

しかし,Yj-<Y>=β2(xj-<x>)+εj-<ε>より,右辺の分子=E[Σj=1n(xj-<x>)(Yj-<Y>)<ε>]=Σj=1n(xj-<x>)E[(Yj-<Y>)<ε>]=β2E[<ε>]Σj=1n(xj-<x>)2+Σj=1n(xj-<x>)E[(εj-<ε>)<ε>]=0 です。

故に,結局Cov[β^1,β^2]=β1β2+β22<x>-(Var[β^2]+β22)<x>-β1β2=-<x>Var[β^2]=-σ2<x>/{Σj=1n(xj-<x>)2}を得ます。

(2)<Y>=β^1+β^2<x>+<ε>なので,Yj-β^1-β^2j=Yj-<Y>-β^2(xj-<x>)です。

そこでj=1n(Yj-β^1-β^2j)2=Σj=1n(Yj-<Y>)2+Σj=1nβ^22(xj-<x>)2-2β^2Σj=1n(Yj-<Y>)(xj-<x>)=Σj=1n(Yj-<Y>)2+Σj=1nβ^22(xj-<x>)2-2β^2Σj=1n(xj-<x>){β^2(xj-<x>)+εj-<ε>}です。

 

つまり,Σj=1n(Yj-β^1-β^2j)2=Σj=1n(Yj-<Y>)2-Σj=1nβ^22(xj-<x>)2-2β^2Σj=1n(xj-<x>)(εj-<ε>)と書けます。

故に,E[Σj=1n(Yj-β^1-β^2j)2]=Σj=1nE[(Yj-<Y>)2]-Σj=1n(xj-<x>)2E[β^22]-2Σj=1n(xj-<x>)E[β^2j-<ε>)]=Σj=1nE[Yj2]-nE[<Y>2]-Σj=1n(xj-<x>)2E[β^22]なる式を得ます。

ところが,E[Yj2]=Var[Yj]+E[Yj]2=σ2+(β1+β2j)2,E[<Y>2]=Var[<Y>]+E[<Y>]2=σ2/n+(β1+β2<x>)2j=1n(xj-<x>)2E[β^22]=Σj=1n(xj-<x>)2(Var[β^2]+E[β^2]2)=σ2+β22Σj=1n(xj-<x>)2です。

 したがって,E[Σj=1n(Yj-β^1-β^2j)2]=nσ2+Σj=1n1+β2j)2-σ2-n(β1+β2<x>)2-σ2+β22Σj=1n(xj-<x>)2=(n-2)σ2となります。

以上から,E[Σj=1n{Yj-(β^1+β^2j)}2/(n-2)]=σ2が示されました。(証明終わり)

さて,これまでの論議は線形最小二乗法において,変量Y=β1+β2x+εなる式の独立変数がx個だけのいわゆる単回帰です。

以下では,これをY=x1β1+x2β2+..+xpβp+ε=Σk=1pkβk+εなのように独立変数がp個の多変数x1,x2..,xpの重回帰モデルに拡張します。(ただし,x1β1が単に定数β1があるようなx=1(一定)の式も含みます。)

[定義13-5]:n個の標本Y1,Y2,..,YnをYj=xj1β1+xj2β2+..+xjpβp+εj=Σk=1pjkβk+εj (j=1,2,..,n)と置く。ただしβk(k=1,2,..,p)は未知母数であり,xjk(j=1,2,..,n;k=1,2,..,p)は既知定数である。

εj(j=1,2,..,n)は誤差で,これらは互いに独立な確率変数であって全てN[0,σ2]に従うと仮定する。これを線形回帰モデルという。

β^kをβkの推定量とするとき,Yj-Σk=1pjkβ^k (j=1,2,..,n)を残差(residual)という。残差の平方和:Q(β^)=Σj=1n(Yj-Σk=1pjkβk^)2を最小にする回帰係数:β^=(β^1,β^2,..,β^p)を求める方法を最小二乗法という。

先にQ(β^1,β^2)の最小値を与えるβ^1,β^2を係数とする回帰直線y=β^1+β^2xを求めた手続きを単回帰と呼ぶのに対して,上記のp≧3の手続きを重回帰(multiple linear regression)という。

そして,Q(β^)が最小になるための必要条件:-(1/2)(∂Q/∂β^k)=Σj=1n[xjk{Yj-(xj1β^1+xj2β^2+..+xjpβ^p)}]=0 (k=1,2,..,p)を正規方程式と呼ぶ。

 

※(注):具体的に正規方程式を解きます。

 

正規方程式はΣj=1n(xjkj1β^1+xjkj2β^2+..+xjkjpβ^p)=Σj=1njkj (k=1,2,..,p)です。

kl≡Σj=1njkjl,Dk≡Σj=1njkjと置けば,正規方程式はΣl=1pklβ^l=Dk (k=1,2,..,p)と書けます。これはp×pの係数行列Sとp次元縦ベクトル:β^≡t(β^1,β^2,..,β^p),t(D1,D2,..,Dp)による行列表現ではSβ^=です。

また,t(Y1,Y2,..,Yn),kt(x1k,x2k,..,xnk) (k=1,2,..,p)なるn次元縦ベクトルを用いるとSkl=Σj=1njkjltkl,Dk=Σj=1njkjtk(k,l=1,2,..,p)ですから,n×p行列XをX≡(1,2,..,p)で定義すると,S=tXX,tと書けます。

さらに,Yj=Σk=1pjkβk+εj (j=1,2,..,n)もβt12,..,βp),εt12,..,εn)により,=Xβεですからt=Sβtεです。

S=tXXについてdetS≠0 と仮定すれば,T=(tij)≡S-1が存在するので正規方程式:Sβ^=から,"β^=S-1=Tなる解=回帰係数"が得られます。

X=(1,2,..,p)は既知定数成分の行列なのでS=tXX,T=S-1も確率変数ではないため,E[β^]=S-1E[]=S-1E[Sβtε]=E[β]+S-1 tXE[ε]=βよりβ^はβ^の不偏推定量です。(注終わり)※

[定理13-6]:Cov(β^i,β^j)=tijσ2,特にVar(β^i)=tiiσ2 (i,j=1,2,..,p)である。またQ(β^)=Σj=1nj2-Σk=1pkβ^kであり,E[Q]=(n-p)σ2である。

(証明):Cov[Di,Dj]=Cov[Σk=1nkikl=1nljl],Cov[Yk,Yl]=Cov[εkl]=δklσ2,故にCov[Di,Dj]=Σk=1nkikjσ2=Sijσ2です。

これとβ^=S-1=TによってCov[β^i,β^j]=(S-1)ik(S-1)jlklσ2=(S-1)ijσ2を得ます。すなわち,Cov[β^i,β^j]=tijσ2,特にj=iならVar[β^i]=tiiσ2 (i,j=1,2,..,p)です。

また,Q(β^)=Σj=1n(Yj-Σk=1pjkβ^k)2=Σj=1nj2-2Σj=1nΣk=1pjkjβ^k+Σj=1nk=1pjkβ^k)2=Σj=1nj2-2Σk=1pkβ^k+Σk,l=1pklβ^kβ^l=Σj=1nj2-2Σk=1pkβ^k+Σk=1pkβ^k=Σj=1nj2-Σk=1pkβ^kと書けます。

また,Uj≡Yj-Σk=1pjkβ^kと置けばQ(β^)=Σj=1nj2であり,σ2=Var[Yj]=Var[Σk=1pjkβ^k]+Var[Uj]=Σk,l=1pjkjlCov[β^k,β^l]+Var[Uj]です。

 

したがって,Var[Uj]=σ2-Σk,l=1pjkjlklσ2を得ます。そしてE[Uj]=E[Yj-Σk=1pjkβ^k]=0です。

それ故,E[Q]=E[Σj=1nj2]=Σj=1nE[Uj2]=Σj=1n Var[Uj]=nσ2-Σj=1nΣk,l=1pjkjlklσ2=nσ2-Σk,l=1pklklσ2=nσ2-Σk=1pσ2=(n-p)σ2です。(証明終わり)

今日はここまでにします。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

     

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (0) | トラックバック (0)

2010年3月18日 (木)

確率と分布関数(9)(推定2)

 確率と分布関数(推定)の続きです。 

[定義12-1]:X1,X2,..,Xnを確率分布p(x;θ)を持つ母集団からのn個の任意標本とし,未知母数θの推定量をθ^=θ^(X1,X2,..,Xn)とするとき,∀ε>0 に対してlimn→∞P(|θ^-θ|≧ε)=0 (θ^→Pθ)が成立するならθ^をθの一致推定量(consistent estimator)という。

[定理12-2]:X1,X2,..,Xnを正規母集団:N[θ,σ2](σ2は既知)からの任意標本とする。このとき,<X>n≡(X1+X2+..+Xn)/nはθの一致推定量である。

(証明):平均がμ,分散がσ2の確率変数Xに対するチェビシェフの不等式P(|X-μ|>k)≦σ2/k2を,今の平均がθ,分散がσ2/nの確率変数<X>nに適用すると任意のε>0 に対し 0≦P(|<X>n-θ|≧ε)≦σ2/(nε2)となります。

 そこで,limn→∞σ2/(nε2)=0 からlimn→∞P(|<X>n-θ|≧ε)=0 (<X>nPθ)が従います。すなわち,<X>n=(X1+X2+..+Xn)/nはθの一致推定量です。(証明終わり)

[定理12-3]:θ^がlimn→∞Var[θ^]=0 を満たすθの漸近不偏推定量であればθ^はθの一致推定量である。

(証明):漸近不偏推定量の定義によって,limn→∞E[θ^]=θです。そこで,任意の正の数ε>0 に対しある自然数N0=N0(ε)が存在してn≧N0なら|E[θ^]-θ|≦ε/2です。

ω∈{ω∈Ω:|θ^(ω)-θ|≧ε}とすると,ε≦|θ^(ω)-θ|≦|θ^(ω)-E[θ^]|+|E[θ^]-θ|より,ε-|θ^(ω)-E[θ^]|≦|E[θ^]-θ|です。

そこで,n≧N0ならε-|θ^(ω)-E[θ^]|≦ε/2,つまり|θ^(ω)-E[θ^]|≧ε/2となります。故に,n≧N0なら{ω∈Ω:|θ^(ω)-θ|≧ε}⊂{ω∈Ω:|θ^(ω)-E[θ^]|≧ε/2}が成立します。

 

この結果とチェビシェフの不等式:P(|θ^-E[θ^]|≧ε/2)≦{Var[θ^]/(ε/2)2}から,P(|θ^-θ|≧ε)≦4Var[θ^]/ε2なる不等式を得ます。

 

仮定によりlimn→∞Var[θ^]=0 ですから,先に与えたε>0 と他の任意の数δ>0 による数:ε2δ/4 に対して自然数N1=N1(δ)が存在してn≧N1ならVar[θ^]<ε2δ/4 が成立します。

そこで,N0(ε)とN1(δ)のうちの大きい方をN=N(ε,δ)と書けば,n≧Nに対してP(|θ^-θ|≧ε)≦δとなります。

そこで,θ^のθへの確率収束:θ^→Pθ:limn→∞P(|θ^-θ|≧ε)=0 が成立します。(証明終わり)

[補題12-4]:Xj(1≦j≦n)が全て標準正規分布:N[0,1]を持つ独立確率変数で,Tがn×nの直交行列:TtT=tTT=I(単位行列)なら,列ベクトルX=t(X1,X2,..,Xn)に対してt(Y1,Y2,..,Yn)≡Tで定義される列ベクトルの成分Yj(1≦j≦n)もまた全て分布:N[0,1]を持つ独立確率変数である。

(証明):1≦j≦nを満たす各々のjについて変数XjはN[0,1]を持ちますから,確率密度関数はfXj(xj)=(2π)-1/2exp(-xj2/2)です。

  

 そしてXjは全て独立ですから,確率変数の族:t=(X1,X2,..,Xn)の同時確率密度関数fX();t(x1,x2,..,xn)はfX()=Πj=1nXj(xj)=(2π)-n/2exp{-(Σj=1nj2)/2}=(2π)-n/2exp{-(txx)/2}と書けます。

=Tより,=Tとすればx=t,かつtx=tTなので,fX()=(2π)-n/2exp{-(txx)/2}=(2π)-n/2exp{-(tt)/2}=(2π)-n/2exp{-(tyy)/2}です。

dy1dy2..dyn=(detT)dx1dx2..dxnですから,dx1dx2..dxn=(detT)-1dy1dy2..dynです。そこで,fX()dx1dx2..dxn=(detT)-1X()dy1dy2..dynとなります。

したがって, t=(Y1,Y2,..,Yn)=ttTの同時確率密度関数f()はfY()=(detT)-1X()で与えられます。

※(注):今の当面の変数変換は=Tの線形変換ですが,一般の変換()でも,局所的にd=J()dと無限小線形変換で表わされる点においては,(detT)-1=det(T-1)をdet(J-1)=det(∂/∂)で置き換えることで,fY()=det(∂/∂)fX()となります。

 

 なお,J()=(∂/∂)はヤコービ行列です。(注終わり)※

そして,直交行列Tに対しては,1=det(TtT)=(detT)2よりdetT=(detT)-1=±1ですが,今の確率変数の場合にはfY()=|detT|-1X()=(2π)-n/2exp{-(tyy)/2}を得ます。(証明終わり)

[定理12-3の系]:X1,X2,..,Xnを正規母集団:N[μ,σ2]からの任意標本とするとき,不偏分散:σ2^≡Σj=1n(Xj-<X>)2/(n-1)は分散:σ2の一致推定量である。

(証明):n次の正方行列:T=(tij)の成分をtij=1/n1/2(i=1),tij=1/{i(i-1)}1/2(i≧2,j<i),tij=-(i-1)/{i(i-1)}1/2(i≧2,j=i),tij=0 (i≧2,j>i)で与えれば,TtT=tTT=Iとなることが示せるのでTは直交行列です。

一方,Xj(1≦j≦n)は全て正規分布:N[μ,σ2]を持つので,Zj≡(Xj-μ)/σ(1≦j≦n)と定義すると,これらは全て標準正規分布:N[0,1]を持ちます。

 列ベクトルt(Z1,Z2,..,Zn)に対して,t(Y1,Y2,..,Yn)≡Tを定義すると,[補題12-4]によりYj(1≦j≦n)もまた全てN[0,1]を持ちます。

特に,Y1=Σj=1nj/n1/2=n1/2<Z>です。また,TtT=IによりtYYttTT,つまりΣj=1nj2=Σj=1nj2です。そこで,Σj=1n(Zj-<Z>)2=Σj=1nj2-n<Z>2=Σj=1nj2-Y12=Y22+..+Yn2です。

 

つまり,Σj=1n(Zj-<Z>)2は全てが標準正規分布N[0,1]を持つ(n-1)個の確率変数の和ですから,この変数は自由度(n-1)のχ2分布に従います。

(注):2/19の記事「確率と分布関数(4)(特殊分布(連続))」の[定理6-15]:X1,X2,..,Xnが全て標準正規分布を持つn個の独立確率変数ならばχ2≡Σj=1nj2=X12+X22+..+Xn2は自由度nのχ2分布を持つ。を参照しました。(注終わり) ※

そして,Zj-<Z>=(Xi-μ)/σ-(<X>-μ)/σ=(Xj-<X>)/σ,およびσ2^=Σj=1n(Xj-<X>)2/(n-1)から,Σj=1n(Zj-<Z>)2=Σj=1n(Xj-<X>)22=(n-1)σ2^/σ2を得ます。

そこで,(n-1)σ2^/σ2は自由度(n-1)のχ2分布に従うことが

わかりました。

 

故に,χ2分布の特性からE[(n-1)σ2^/σ2]=n-1,Var[(n-1)σ2^/σ2]=2(n-1)です。したがって,E[σ2^]=σ2,Var[σ2^]=2σ4/(n-1)です。

以上から不偏分散:σ2^≡Σj=1n(Xj-<X>)2/(n-1)は分散σ2の不偏推定量であり,そこでσ2の漸近不偏推定量です。

 

さらに,limn→∞Var[σ2^]=0 ですから[定理12-3]によってσ2^はσ2の一致推定量です。(証明終わり)

(別証明):以前の項目で示したように不偏分散σ2^はその呼称通り分散σ2の不偏推定量です。つまり,E[σ2^]=σ2ですから,σ2^はもちろんσ2の漸近不偏推定量です。

そして,前の記事の[例11-17]によれば,Var[σ2^]=2σ4/(n-1)ですから,limn→∞Var[σ2^]=0 も成立します。(証明終わり)

[定義12-5]:母集団分布がp(x;θ)である母集団データx1,x2,..,xnに対し,量L(θ)≡Πj=1np(xj;θ)を最大にするθの値をθ^*=θ^(x1,x2,..,xn)と書いて,これをθの最尤推定値(maximum likelihood estimate)と呼ぶ。

 また,L(θ)を尤度関数という。上記母集団からの任意標本X1,X2,..,Xnに対し,θ^(X1,X2,..,Xn)を最尤推定量(maximum likelihood estimator)という。

(注)尤度(ゆうど:likelihood)とは,尤もらしさ(もっともらしさ:liklihood)を意味します。※

[例題12-6]:X1,X2,..,Xnが次の確率分布を持つ母集団からの任意標本であるとき,未知母数の最尤推定量を求めよ。

(1)  一様分布:p(x;θ)=1/θ (0≦x≦θ),0 (その他)

(2)  正規分布N[μ,σ2]:p(x;μ,σ2)=(2π)-1/2σ-1exp{-(x-μ)2/(2σ2)}(-∞<x<∞)

(解)(1)L(θ)=1/θn (0≦x≦θ),0 (その他)となるので,L(θ)はθの単調減少関数でdL/dθ=0 となるθは存在しません。したがってθがゼロに近いほどL(θ)は大きいことになります

そして,母集団データx1,x2,..,xnを固定すればθの最小値はmax(x1,x2,..,xn)です。それ故,最尤推定量はθ^=max(X1,X2,..,Xn)で与えられます。

(2)この場合,θ=(μ,σ2)であり尤度関数はL(θ)=L(μ,σ2)=(2π)-n/2σ-nexp{-Σj=1n(xj-μ)2/(2σ2)}です。これの対数を取るとlogL(μ,σ2)=-(n/2){log(2π)+logσ2}-{Σj=1n(xj-μ)2/(2σ2)}です。

 尤度の最大値を与える方程式:∂{logL(μ,σ2)}/∂μ=Σj=1n(xj-μ)/σ2=(Σj=1nj-nμ)/σ2=0,∂{logL(μ,σ2)}/∂σ2={-n/(2σ2)}+Σj=1n(xj-μ)2/(2σ4)=0 解けばμ^=<x>=Σj=1nj/n,およびσ2^=Σj=1n(xj-<x>)2/nを得ます。

 したがって,μ,およびσ2の最尤推定量はそれぞれ<X>=Σj=1nj/n,およびΣj=1n(Xj-<X>)2/nです。(終わり)

[定理12-7]:θ^がθの最尤推定量でμ=g(θ)がθの一価関数ならμは最尤推定量μ^=g(θ^)を持つ。

(証明):μ=g(θ)はθの一価関数なので逆関数θ=g-1(μ)が存在して尤度関数はL(θ)=Πj=1np(xj;θ)=L(g-1(μ))と書けます。

最尤推定量の定義によって尤度関数L(θ)はθ=θ^=g-1(μ)で最大となります。一価関数μ=g(θ)ではθ^=g-1(μ)はμ=g(θ^)と同値ですから,μは最尤推定量μ^=g(θ^)を持つことになります。(証明終わり)

[定義12-8]:X1,X2,..,Xnを確率分布p(x;θ)を持つ母集団からの任意標本とし,未知母数θの推定量θ^に対する確率密度関数をg(θ^;θ)とする。(dP=g(θ^;θ)dθ^とする。)

一方,母集団データ(x1,x2,..,xn)を(θ^,y1,y2,..,yn-1)に変換してθ^=θ^(x1,x2,..,xn)を与えたときのY1,Y2,..,Yn-1の結合確率密度関数(j.p.d.f)をh(y1,y2,..,yn-1|θ^;θ)とする。

ただし,∂θ^/∂xk,∂yj/∂xk,(k=1,2,..,n;j=1,2,..,n-1)が全て存在して連続関数とする。

(x1;θ)p(x2;θ)..p(xn;θ)dx1dx2..dxn=g(θ^;θ)h(y1,y2,..,yn-1|θ^;θ)dθ^dy1dy2..dyn-1と置いたとき,h(y1,y2,..,yn-1|θ^;θ)がθを含まない(θに依存しない,θに独立)ならばθ^=θ^(X1,X2,..,Xn)をθの充足推定量(sufficient estimator)という。

※(注):p(x1;θ)p(x2;θ)..p(xn;θ)dx1dx2..dxn=g(θ^;θ)h(y1,y2,..,yn-1|θ^;θ)dθ^dy1dy2..dyn-1=L(θ)dx1dx2..dxnです。※

[例12-9]:X1,X2,..,Xnを2項母集団からの任意標本とする。確率分布(今の場合,2項母集団の離散分布なので密度関数ではない)をp(1;θ)=θ,p(0;θ)=1-θ(0<θ<1)とすると,T≡Σj=1njはθの充足推定量である。

(証明):p(x1;θ)p(x2;θ)..p(xn;θ)=Πj=1nθxj(1-θ)1-xj=θΣxj(1-θ)n-Σxj=θt(1-θ)n-t(xjは 0,または1)です。

一方,T≡Σj=1njの確率分布G(t;θ)はG(t;θ)=ntθt(1-θ)n-tで与えられます。

 

p(x1;θ)p(x2;θ)..p(xn;θ)=G(t;θ)H(x1,x2,..,xn|t;θ)から,H(x1,x2,..,xn|t;θ)=p(x1;θ)p(x2;θ)..p(xn;θ)/G(t;θ)=1/ntですが,これはθに依存しないのでT=Σj=1njはθの充足推定量です。(証明終わり)

[定理12-10]:ネイマンの分解基準(Neyman factorization criterion)

 確率密度関数(p.d.f)f(x;θ)を持つ母集団の任意標本X1,X2,..,Xnの関数θ^=θ^(X1,X2,..,Xn)がθの充足推定量であるための必要十分条件は,全てのθに対してΠj=1nf(xj;θ)=H(x1,x2,..,xn)g(θ^;θ)なる形の式が成立することである。

(証明):Πj=1n(xj;θ)dxj=h(y1,y2,..,yn-1|θ^;θ)g(θ^;θ)dθ^dy1dy2..dyn-1で,Πj=1ndxj=|detJ|dθ^dy1dy2..dyn-1です。(J≡∂(x1,x2,..,xn)/∂(θ^,y1,y2,..,yn-1))

(y1,y2,..,yn-1|θ^;θ)=|detJ|-1Πj=1nf(xj;θ)/g(θ^;θ)ですが,θ^=θ^(X1,X2,..,Xn)がθの充足推定量なら,h(y1,y2,..,yn-1|θ^;θ)はθに依りま戦せん。

 

1,y2,..,yn-1,θ^は全て(x1,x2,..,xn)の関数で,|detJ|-1=|detJ-1|,J-1=∂(θ^,y1,y2,..,yn-1)/∂(x1,x2,..,xn)も(x1,x2,..,xn)の関数です。

これをH(x1,x2,..,xn)と書けば,Πj=1nf(xj;θ)=H(x1,x2,..,xn)g(θ^;θ)です。

逆に,Πj=1n(xj;θ)=H(x1,x2,..,xn)g(θ^;θ)なら,θ^=θ^(x1,x2,..,xn),yj≡xj(j=1,2,..,n-1)と置けば,h(y1,y2,..,yn-1|θ^;θ)=|detJ|-1Πj=1nf(xj;θ)/g(θ^;θ)=|detJ|-1H(x1,x2,..,xn)です。

 

detJ=∂(x1,x2,..,xn)/∂(y1,y2,..,yn-1,θ^)=∂xn/∂θ^なので,h(y1,y2,..,yn-1|θ^;θ)=H(x1,x2,..,xn)|∂xn/∂θ^|-1であり,θに依存しないのでθ^はθの充足推定量です。

 

なぜなら,h(y1,y2,..,yn-1|θ^;θ)の因子H(x1,x2,..,xn)=H(y1,y2,..,yn-1,xn)でxn=xn(y1,y2,..,yn-1,θ^),∂xn/∂θ^も(y1,y2,..,yn-1,θ^)の関数ですからθに無関係です。(証明終わり)

 

[定理12-11]:(1)θの充足推定量θ^が存在する場合には,尤度方程式∂{logL(θ)}/∂θ=0 の任意の解はθ^の関数である。

  

(2)θの充足推定量θ1^,および有効推定量θ2^が存在すればθ2^はθ1^の関数である。

 

(証明):(1)任意標本値をx1,x2,..,xnと置けば,θ^はθの充足推定量なので,θ^の密度関数をg(θ^;θ)とすると尤度関数はL(θ)=g(θ^;θ)h(x1,x2,..,xn|θ^)と表現できます。

 

 そこで,尤度方程式∂{logL(θ)}/∂θは∂{logg(θ^;θ)}/∂θ=0 となります。この方程式の左辺はθ^,θのみの関数なのでθについて解いた解θ(最尤推定量)は充足推定量θ^の関数です。

 

(2)θの任意の不偏推定量をU^,充足推定量のθ1^の密度関数をg(θ1^;θ)と置きます。

 

 充足推定量の定義から,(x1,x2,..,xn)を(θ1^,y1,y2,..,yn-1)に変換してΠj=1n(xj;θ)dxjg(θ1^;θ)h(y1,y2,..,yn-11^,θ)dθ1^dy1dy2..dyn-1と置けば,h(y1,y2,..,yn-11^;θ)はθを含みません。

 

 一方,U^はθの不偏推定量なので,θ=E[U^]=∫..∫ug(θ1^;θ)h(y1,y2,..,yn-11^)dθ1^dy1dy2..dyn-1=∫k(θ1^)g(θ1^;θ)dθ1^が成立します。ただし,k(θ1^)≡∫..∫uh(y1,y2,..,yn-11^)dy1dy2..dyn-1です。

 

 θ=∫k(θ1^)g(θ1^;θ)dθ1^はk(θ1^)がθの不偏推定量であることを意味しています。

  

 E[U^]=θ,U^-θ=U^-k(θ1^)+k(θ1^)-θより,E[k(θ1^)]=θですから,Var[U^]=∫..∫(u-θ)2Πj=1n(xj;θ)dxj=∫..∫[u-k(θ1^)]2Πj=1n(xj;θ)dxj+∫..∫[k(θ1^)-θ]2Πj=1n(xj;θ)dxjと書けます。

  

 故に,Var[U^]≧∫[k(θ1^)-θ]2g(θ1^;θ)dθ1^ですが,この不等式でU^=θ2^と置けば有効推定量の分散の最小性から,等号:Var[θ2^]=∫[k(θ1^)-θ]2g(θ1^;θ)dθ1^が成立します。

  

 そこで,∫..∫[θ2^-k(θ1^)]2Πj=1n(xj;θ)dxj=E[{θ2^-k(θ1^)}2]=0 なのでθ2^=k(θ1^)です。(証明終わり)

 

 今日はここまでにします。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

    

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル) 

| | コメント (0) | トラックバック (0)

2010年3月12日 (金)

確率と分布関数(8)(推定1)

 確率と分布関数の続きです。推定(statistical inference)の項目に入ります。

[定義11-1]:母集団の分布p(x;θ)に含まれている未知母数(パラメータ)θを,この母集団から抽出した任意標本(samples):X1,X2,..,Xnの関数θ^(X1,X2,..,Xn)によって推定する方法を点推定法という。

1,X2,..,Xnがそれぞれx1,x2,..,xnなる値(標本値)と決まれば,θは1つの実現値θ*θ^(x1,x2,..,xn)を取るので,このθ*θの推定値という。また変量θ^(X1,X2,..,Xn)を推定量という。

[定義11-2]:未知母数θの推定量θ^がE[θ^]=θを満たすときθ^は不偏性(unbiasedness)を持つといい,このθ^をθの不偏推定量(unbiased estimate)という。

 また,b(θ^)≡E[θ^]-θを推定量θ^の偏りという。ここで期待値EはX1,X2,..,Xnの同時分布にわたって取られる。

[定理11-3]:X1,X2,..,Xnが母平均μを持つ任意の母集団からの任意標本であるならば,標本平均:<X>≡(X1,X2,..,Xn)/n(=μ^)はμの1つの不偏推定量である。

(証明):E[Xj]=μ (j=1,2,..,n)よりE[<X>]=(1/n)Σj=1nE[Xj]=μです。(証明終わり)

[例11-4];母集団の分布は 0<x≦θに対してp(x;θ)=1/θ,それ以外ではp(x;θ)=0 の一様分布とする。

 

 この一様母集団からの大きさnの任意標本:X1,X2,..,Xnに対し,<X>≡(X1,X2,..,Xn)/n,X(n)≡max(X1,X2,..,Xn)とおく。(今の場合,p(x;θ)はxの確率密度関数である。)

 このとき,θ^1≡2<X>,θ^2≡(n+1)X(n)/nは共にθの不偏推定量である。

(証明):j=1,2,..,nに対してE[Xj]=∫0θ(x/θ)dx=θ/2ですから,E[θ^1]=E[2<X>]=θです。

  

 次に,Xjの分布関数はx>θならP(Xj≦x)=1,0<x≦θならP(Xj≦x)=x/θ,x≦0 ならP(Xj≦x)=0 です

 そして,{X(n)≦x}=∩j=1{Xj≦x}で,1,X2,..,Xnは独立なので,X(n)の分布関数はF(x)≡P(X(n)≦x)=P(∩j=1{Xj≦x}=Πj=1P(Xj≦x)となります。

 

 そこで,x>θならF(x)=1,0<x≦θならF(x)=xnn,x≦0 ならF(x)=0 です。

 確率密度関数はf(x)=dF/dxで与えられます。これは,0<x≦θならf(x)=nxn-1n,それ以外ではf(x)= 0です。

 それ故,E[X(n)]=∫0xf(x)dx=(n/θn)∫0θn/dxθn =nθ/(n+1)です。故に,E[θ^2]=E[(n+1)X(n)/n]=θです。(証明終わり)

[定理11-5]:母集団分布に母分散σ2が存在するとき,分布型に関係なE[{Σj=1n(Xj-<X>)2}/(n-1)]=σ2が成り立つ。

(証明):母平均をE[Xj]=μ(j=1,2,..,n)とすると,Xj-<X>=(Xj-μ)-(<X>-μ)よりE[(Xj-<X>)2]=E[(Xj-μ)2-2(Xj-μ)(<X>-μ)+(<X>-μ)2]と書けます。

ところがE[(Xj-μ)2]=σ2,E[Σj=1n(Xj-μ)(<X>-μ)]=nE[(<X>-μ)2],また,明らかにE[(<X>-μ)2]=σ2/nです。

 それ故,E[{Σj=1n(Xj-<X>)2}]=nσ2-2nσ2/n+nσ2/n=(n-1)σ2です。以上から,E[{Σj=1n(Xj-<X>)2}/(n-1)]=σ2が得られます。

(注):S02≡{Σj=1n(Xj-<X>)2}/(n-1)を不偏分散(unbiased variance)という。

[定義11-6]:平均がμ,分散がσ2の母集団からの大きさnの任意標本X1,X2,..,Xnに対してμの推定量としてμ^≡c11+c22+..+cnnを取る。

 

 標本の線形関数:μ^がVar[μ^]を最小にする不偏推定量となるように定数cj(j=1,2,..,n)を定める。このときのμ^をμの最良線形不偏推定量という。

[例11-7]:μ^≡c11+c22+..+cnnがμの最良線形不偏推定量ならμ^は不偏推定量なのでE[μ^]=Σj=1njE[Xj]=μ(Σj=1nj)=μです。故にΣj=1nj=1です。

一方,Var[μ^]=Σj=1nj2Var[Xj]=(Σj=1nj22です。

以上から,最良線形不偏推定量を求めるには,Σj=1nj=1の下でΣj=1nj2を最小にすればいいことになります。

Σj=1nj1,および.Σj=1nj2=1の微分はそれぞれd(Σj=1nj)=Σj=1ndcj=0,およびd(Σj=1nj2)=2Σj=1njdcj=0 です。

 

λをラグランジュの未定係数として,極小条件:Σj=1n(λ+2cj)dcj=0 より,cj=-λ/2=(一定)を得られます。

 

よって,Σj=1nj=1よりcj=1/nがμ^≡c11+c22+..+cnnの最良線形不偏推定量を与えることがわかります。(証明終わり)

[定義11-8]:θ^1とθ^2が共にθの不偏推定量であるとき,Var[θ^1]<Var[θ^2]ならθ^1の方がθ^2よりも有効である(efficient)という。

 

 そして,母数θの全ての不偏推定量のうち最も分散の小さいものを,最も有効な推定量,または最良(best)推定量という。

 

[定理11-9]:(クラーメル・ラオの不等式(Cramer-Rao inequality),or C-R不等式)

 母集団分布p(x;θ)は次の4つの条件:正則条件(1)~(4)満たすとする。(ただし,ここではp(x;θ)をp.d.f.とみなす。)

(1)-∞<x<∞の全てのxに対して∂p(x;θ)/∂θが存在する。

(2)∫-∞-∞..∫-∞Πj=1np(xj;θ)dx1dx2.. dxnは積分と微分∂/∂θの順序の交換ができる。

(3)E[{∂logp(X;θ)/∂θ}2]<∞

(4)∫-∞-∞..∫-∞θ^(x1,x2,..,xn) Πj=1np(xj;θ)dx1dx2.. dxnはθに関して微分可能である。

 この正則条件の下でθの不偏推定量θ^(X1,X2,..,Xn)の分散はVar[θ^]≧1/(nE[{∂[logp(X;θ)]/∂θ}2])なる不等式を満たす。

等号の成立は,Σj=1n[{∂[logp(Xj;θ)]/∂θ}=k{θ^(X1,X2,..,Xn)-θ}を満たすn,θによらない定数kが存在するときです。

(証明):θ^が不偏推定量であるという仮定から,θ=∫-∞-∞..∫-∞θ^(x1,x2,..,xnj=1np(xj;θ)dx1dx2.. dxnです。

 両辺をθで微分すると,1=∫-∞-∞..∫-∞θ^(x1,x2,..,xn)[Σj=1nΠk=1,k≠jnp(xk;θ){∂p(xj;θ)/∂θ}]dx1dx2..dxn=∫-∞-∞..∫-∞Πj=1nθ^(x1,x2,..,xn)[Σj=1nΠk=1,np(xk;θ){∂[logp(xj;θ)]/∂θ}]dx1dx2..dxnです。

 よって,1=Σj=1nE[θ^(X1,X2,..,Xn){∂{logp(xj;θ)]/∂θ}]が成立します。

 一方,明らかに,1=∫-∞-∞..∫-∞Πj=1np(xj;θ)dx1dx2..dxnです。

 

 これも両辺をθで微分すると,上と同様にして 0=Σj=1nE[∂[logp(Xj;θ)]/∂θ]を得ます。

 したがって,1=E[{θ^(X1,X2,..,Xn)-θ}{Σj=1n∂[logp(Xj;θ)]/∂θ}]と書けます。

 

 これにシュワルツの不等式(Schwarz inequality)を適用すれば1≦E[{θ^(X1,X2,..,Xn)-θ}2]/E[{Σj=1n∂logp(xj;θ)/∂θ}2]が得られます。

そして,Var(θ^)=E[{θ^(X1,X2,..,Xn)-θ}2]より,これはVar(θ^)≧1/E[{Σj=1n∂logp(Xj;θ)/∂θ}2])を満たします。

 

等号はΣj=1n{∂[logp(xj;θ)]/∂θ}=k[{θ^(X1,X2,..,Xn)-θ}を満たす定数kが存在するときに限られます。

なぜなら,一般にシュワルツの不等式は数空間のベクトル,に対して|(xy)|2≦||2||2が成立するというもので,等号はが同じ方向のベクトルのとき,例えば=kと書ける場合だけ成立します。

 さて,∀jに対して∫-∞(xj;θ)dxj=1より,∫-∞{∂logp(xj;θ)/∂θ}p(xj;θ)dxj=0 です。したがってE[∂[logp(Xj;θ)]/∂θ]=0 です。

それ故,j≠kならE[{∂[logp(Xj;θ)]/∂θ}{∂[logp(Xk;θ)]/∂θ}]=∫-∞-∞..∫-∞{∂[logp(xj;θ)]/∂θ}{∂[logp(xk;θ)]/∂θ}Πj=1np(xj;θ)dx1dx2.. dxn=E[∂[logp(Xj;θ)]/∂θ]E[∂log[p(Xk;θ)]/∂θ]=0 です。

 そこでE[{Σj=1n∂[logp(Xj;θ)]/∂θ}2]=Σj=1nE[{∂[logp(Xj;θ)]/∂θ}2]=nE[{∂[logp(x;θ)]/∂θ}2]を得ます。故に,Var(θ^)≧1/(nE[{∂[logp(xj;θ)]/∂θ}2])です。

  

 これをクラーメル・ラオの不等式(Cramer-Rao inequality),or C-R不等式といいます。(証明終わり)

[定義11-10]:C-R不等式で等号を成り立たせるθ^,つまりΣj=1n{∂[logp(xj;θ)]/∂θ}=k[{θ^(X1,X2,..,Xn)-θ}を満たすkが存在するようなθ^を有効推定量,または最小分散不偏推定量(minimum-variance unbiased estimator)という。

[例11-11]:母集団分布がp(x;λ)=λx exp(-λ)/x! (x=0,1,2,..)なる分布のポアソン(Poisson)母集団のパラメータλの有効推定量は<X>=(X1+X2+..+Xn)/nである。

(証明):logp(x;λ)=xlogλ-λ-log(x!)ですから,∂[logp(x;λ)]/∂λ=-1+x/λです。

 

 故に,nE[{∂[logp(X;θ)]/∂θ}2]=nE[(-1+x/λ)2]=n{E[1]-2E[X]/λ+E[X2]/λ2}=n{1+2λ/λ+(λ2+λ)/λ2}=n/λとなります。

 一方,Var[<X>]=Σj=1nVar[Xj]/n2=λ/nです。したがって,Var[<X>]=1/(nE[{∂[logp(Xj;θ)]/∂θ}2])を満たします。

 

 等号が成り立っていますから,<X>=(X1+X2+..+Xn)/nは有効推定量です。(証明終わり)

[例11-12]:正規母集団N[μ,σ2]からの任意標本をX1,X2,..,Xnとすれば,標本平均<X>=(X1+X2+..+Xn)/nは母平均μの有効推定量である。

(証明):p(x;μ)=(2π)-1/2σ-1exp{-(x-μ)2/(2σ2)}(-∞<x<∞)ですから,∂logp(x;μ)/∂μ=(x-μ)/σ2です。故に,E[{∂[logp(X;μ)]/∂μ}2]=E[(x-μ)]/σ4=1/σ2です。

 そこで,1/(nE[{∂[logp(X;μ)]/∂μ}2])=σ2/nです。一方,Var[<X>]=Σj=1n Var[Xj]/n2=σ2/nです。故に,<X>は有効推定量です。(証明終わり)

[例11-13]:X1,X2,..,Xnが次の各確率分布を持つ母集団からの任意標本であるとき,θの有効推定量を求めます。

(1)p(x;θ)=Nxθx(1-θ)N-X (x=0,1,2,..,N,0<θ<1)

(2)p(x;θ)={1/(Γ(α)θα)}xα-1exp(-x/θ)(x≧0,αは定数)

(解):(1)logp(x;θ)=log Nx+xlogθ+(N-x)log(1-θ),故に∂[logp(x;θ)]/∂θ=x/θ-(N-x)/(1-θ)=(x-Nθ)/{θ(1-θ)}です。

 したがって,E[{∂[logp(X;θ)]/∂θ}2]=E[(x-Nθ)2]/{θ2(1-θ)2}=Nθ(1-θ)/{θ2(1-θ)2}=N/{θ(1-θ)},それ故,1/(nE[{∂[logp(X;θ)]/∂θ}2])=θ(1-θ)/(nN)です。

 ところで,<X>≡(X1+X2+..+Xn)/nと置くとE[<X>]=Nθ,Var[<X>]=Nθ(1-θ)/n,すなわち,Var[<X>/N]=θ(1-θ)/(nN)=1/(nE[{∂[logp(X;θ)]/∂θ}2])です。

 

 θの有効推定量は<X>/N=(X1+X2+..+Xn)/(nN)です。

(2)logp(x;θ)=-logΓ(α)-αlogθ+(α-1)logx-x/θ,故に∂[logp(x;θ)]/∂θ=-α/θ+x/θ2=(x-αθ)/θ2です。

 したがって,E[{∂[logp(X;θ)]/∂θ}2]=E[(x-αθ)2]/θ4=αθ24=α/θ2,それ故,1/(nE[{∂[logp(X;θ)]/∂θ}2])=θ2/(nα)です。

 <X>≡(X1+X2+..+Xn)/nと置くと,E[<X>]=αθ,Var[<X>]=αθ2/n,すなわち,Var[<X>/α]=θ2/(nα)=1/(nE[{∂[logp(X;θ)]/∂θ}2])です。

 

 θの有効推定量は<X>/α=(X1+X2+..+Xn)/(nα)です。

[定義11-14]:サンプル数をnとするとき,E[θ^]≠θであるがlimn→∞E[θ^]=θが成立するとき,θ^=θ^(X1,X2,..,Xn)をθの漸近不偏推定量(asymptotic unbiased estimator)という。

[定義11-15]:e[θ^]≡(nE[{∂[logp(X;θ)]/∂θ}2]Var[θ^])-1をθ^の有効性(efficiency)という。

これを用いるとC-R不等式は 0<e[θ^]≦1と書けます。

[例11-16]:X1,X2,..,Xnを正規母集団N[0,σ2]からの任意標本とし,σ2の推定量をσ2^≡Σj=1nj2/nとするときe[σ2^]を求める。

(解)p(x;σ2)=(2π)-1/2σ-1exp{-x2/(2σ2)}より,logp(x;σ2)=-(1/2)log(2π)-(1/2)logσ2-x2/(2σ2)なので,∂[logp(x;σ2)]/∂σ2=-1/(2σ2)+x2/{2(σ2)2}となります。

 故に,E[{∂[logp(X;σ2)]/∂σ2}2]=(2π)-1/2σ-1-∞[-1/(2σ2)+x2/{2(σ2)2}]2exp{-x2/(2σ2)}dx=(2π)-1/2{1/(4σ4)}∫-∞(1-2t2+t4) 2exp(-t2/2)dt=1/(2σ4)を得ます。

 

 それ故,nE[{∂[logp(X;σ2)]/∂σ2}2]=n/(2σ4)です。

 一方,Var[σ2^]=Var[Σj=1nj2/n]=Var[X2]/nで,Var[X2]=E[(X2-E[X2])2]=E[X4]-E[X2]2です。

 

 E[X]=0 なのでE[X2]=Var[X]=σ2です。また,E[X4]=(2π)-1/2σ-1-∞4exp{-x2/(2σ2)}dx=3σ4より,Var[X2]=2σ4,Var[σ2^]=2σ4/nです。

以上から,e[σ2^]=(nE[{∂[logp(X;σ2)]/∂σ2}2]Var[σ2^])-1=1です。(終わり)

[例11-17]:X1,X2,..,Xnを正規母集団N[0,σ2]からの任意標本とし,σ2の推定量を不偏分散σ2^≡Σj=1n(Xj-<X>)2/(n-1)とするとき有効性e[σ2^]を求める。

(解)p(x;σ2)=(2π)-1/2σ-1exp{-x2/(2σ2)}よりnE[{∂[logp(X;σ2)]/∂σ2}2]=n/(2σ4)です。(すぐ前の[例11-16]参照)

 

 一方,Var[σ2^]=Var[Σj=1n(Xj-<X>)2/(n-1)]=E[(Σj=1n(Xj-<X>)2/(n-1)-σ2)2]=E[(Σj=1nj2-n<X>2)2]/(n-1)2-σ4=(n2-1)/(n-1)2-σ4=2σ4/(n-1)です。(計算略)

したがって,e[σ2^]=(nE[{∂[logp(X;σ2)]/∂σ2}2]Var[σ2^])-1=(n-1)/n<1です。(終わり)

途中ですが今日はここまでにします。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会),ラダクリシュナ-ラオ著(奥野忠一,篠崎信雄,古河陽子,鷲見泰俊,長田 洋,広崎昭太,矢島敬二 訳)「統計的推測とその応用」(東京図書)

 

PS:依然として風邪が治りません。

 

 以前は市販のカゼ薬を飲んで寝ていれば長くても3日くらいで完治したし,そもそも風邪など5年に1度くらいしか引きませんでした。ずっと臨時雇いだったので本格的に病気になると職を失いますから気を張っていたこともあったでしょうね。

 

 しかし,2006年暮れから2007年の初めに心臓病のせいで肺に水がたまり,その後2度目の入院で心臓手術して退院した後は,世間の気候の通りに病気になりやすく,最初のうち軽くて治ったかなと思ったときからが長くていつも10日以上もかかります。糖尿病のせいもあるでしょう。

 

 一人では立ち上がって部屋を出るのさえ苦しいので,医者までたどりつくこともできないし,食欲もないので最低限飲み物だけで2,3日臥せっています。

 

 3日分の薬もなくなりました。睡眠薬で無理やり寝てますが飯島愛さんの例もあるし,睡眠しているうちに肺炎で死ぬこともありますね。

 

 高校を出て一人暮らしを始めて以来42年足らず,いわば天涯孤独なので病気で寝込むというのは慣れているはずなのですが,何もする気力がなく無理に動くと苦しくなるので困ることが多いですね。

 

 41年前,故郷を出てからは,医者とか,看護師とか,お金を払って世話してもらう以外には,看病してもらったのは20代後半の頃,利尻島出身で白山に住んでいたガールフレンドの家で布団に寝て濡れタオルを額に乗せてもらったり,おカユ?(焼きそば?)を作ってもらったという記憶しかないですね。さびしい人生だな。。

 

 ↑ また弱音を吐いて同情でも買おうと考えてる。。自分のことばかりで,お前は他人の看病もしたことないじゃないか。。。

  

PS2:このブログを書くために数時間根をつめていたら心持ち症状が軽くなったような気がします。

   

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル) 

| | コメント (2) | トラックバック (1)

2010年3月 7日 (日)

確率と分布関数(7)(極限定理の続き,収束の種類)

 確率と分布関数の続きです。 

色々と中断中のテーマはあるのですが,1つ1つコツコツと終わらせていくつもりです。今は,科学ブログを書いている限りブログネタには困りません。毎回悩んでいた昔が懐かしいくらいです。

[定理9-9]:中心極限定理(central limit theorem)(同一分布の場合)

有限な平均:μ=E[Xj],有限な分散:σ2=Var[Xj]の同一分布を持つ独立確率変数列:X1,X2,..に対して,limn→∞P({(X1+X2+..Xn-nμ)/(n1/2σ)}≦x)=(2π)-1/2-∞xexp(-u2/2)du(-∞<x<∞)が成立する。

(証明) Uj≡Xj-μと置くと,E[Uj]=E[Xj]-μ=0,E[Uj2]=Var[Xj]=σ2です。

  

 n(X1+X2+..Xn-nμ)/(n1/2σ)=(Σj=1nj)/(n1/2σ)と定義して,その特性関数をφn(t)と書けば,U1,U2,..が全て独立ですから,φn(t)=E[exp(itYn)]=Πj=1nE[exp{itUj/(n1/2σ)}]となります。

 

 ところで指数関数はexp(itu)=1+itu-(1/2)t22+(θ/6)(itu)3,(|θ|≦1)より,E[exp(itUj)]=1-(1/2)t2σ2+O(t3)と近似展開されます。

 

 そこで,Πj=1nE[exp{itUj/(n1/2σ)}]={1-t2/(2n)+O(n-3/2)}n={1+t2/(2n)+O(n-3/2)}-n=[{1+t2/(2n)+O(n-3/2)}1/{t2/(2n)+O(n-3/2)}]-t2/2+O(n-3/2)と書けます。

 

 ここで,公式:limn→∞(1+1/n)n=eから,limn→∞{1+t2/(2n)+O(n-3/2)}1/{t2/(2n)+O(n-3/2)}=eを得ます。

それ故,limn→∞φn(t)=exp(-t2/2)となります。右辺のexp(-t2/2)は標準正規分布N[0,1]の特性関数に一致しています。

 

φ(t)=exp(-t2/2)と置いてフーリエ反転公式:F(x2)-F(x1)=∫-∞[{exp(-itx2)-exp(-itx2)}φ(t)/(-it)]dtを用いると,F(x2)-F(x1)=(2π)-1/2x1x2exp(-u2/2)duを得ます。

 

したがって,F(x)=limn→∞P(Yn≦x)=(2π)-1/2-∞xexp(-u2/2)du (-∞<x<∞)が成立します。(証明終わり)

[例9-10]:上記の中心極限定理から大数の法則(law of large numbers)を導きます。

 

(解)uの関数exp(-u2/2)の性質から,任意のε10 に対して,あるx>0 が存在して(2π)-1/2-xxexp(-u2/2)du=1-ε1が成立することがわかります。

 そして,別に任意のε>0 を与えて,n≧σ222となるようなnを取ります。このとき,x≦n1/2ε/σです。

そこで,中心極限定理によりP(|(X1+X2+..Xn)/n-μ|≦ε)=P(|(X1+X2+..Xn-nμ)/(n1/2σ)|≦(n1/2ε/σ))≧P(|(X1+X2+..Xn-nμ)/(n1/2σ)|≦x) → (2π)-1/2-xxexp(-u2/2)du=1-ε1 (as n→∞)となります。

 したがって,十分大きいnに対して,P(|(X1+X2+..Xn)/n-μ|≦ε)>1-2ε1,すなわち,P(|(X1+X2+..Xn)/n-μ|>ε)<2ε1です。

 

 ε1>0 は任意でしたから,limn→∞P(|(X1+X2+..Xn)/n-μ|>ε)=0 を得ます。これは先に述べた大数の法則です。(終わり)

[定理9-11]:ラプラス-ド・モアブルの定理(Laplace-de Moivre)

  

 各試行の結果,排反事象T,Hのどちらか1つが起きるようなn回の"ベルヌーイ試行=独立試行"で,各試行の結果がTなら1,Hなら0 を割り当てる確率変数をXj(j=1,2,..,)とする。

  

 このとき,n回の試行のうちでTが出る回数をSnとすればSn=X1+X2+..+Xn=Σj=1njである。

そこで,P(Xj=1)=p,P(Xj=0)=q=1-pのときYn≡(Sn-np)/(npq)1/2と置けば,Ynのd.f:Fn(y)=P(Yn≦y)に対してlimn→∞n(y)=(2π)-1/2-∞yexp(-u2/2)duが成立する。

(yについて一様収束である。)

(証明) E[Xj]=p,Var[Xj]=pqより[定理9-9]を適用すれば自明。(証明終わり)

[定理9-12]:コルモゴロフの不等式(Kolmogorov's inequality)

平均がゼロで分散が有限の独立確率変数列:X1,X2,..について,Sk≡X1+X2+..+Xkと置けば任意のε>0 に対し,P(max(|S1|,|S2|,..,|Sn|)≧ε)≦(1/ε2){Σk=1n Var[Xk]}が成立する。

(証明):集合AをA≡{ω∈Ω|max(|S1|,|S2|,..,|Sn|)≧ε}と定義し,集合列:{Ak}k=1,2,.をA1≡{ω∈Ω||S1|≧ε},Ak≡{ω∈Ω||Sj|<ε(j=1,2,..,k-1),|Sk|≧ε)(k=2,3,..,n)で定義すれば,A=A1+A2+..+An=Σk=1nkです。

 このとき,A,Ak(k=1,2,..,n)の指示関数IA,IAkについて,明らかにIA=Σk=1nAkが成立します。故にP(A)=Σk=1nP(Ak)=Σk=1nP(IAk=1)です。

 一方,Sn=Sk+(Sn-Sk)で,Sk=X1+X2+..+Xk,(Sn-Sk)=Xk+1+Xk+2+..+Xnです。

 

 そして,SnとSkは独立ですから,Val[Sn]=Var[Sk]+Var[Sn-Sk]であり,E[Sk]=E[Sn-Sk]=0 です。

 故に,E[IAkn2]=E[IAkk2]+E[IAk(Sn-Sk)2]≧E[IAkk2]≧ε2P(IAk=1)=ε2P(Ak)なる不等式が得られます。

 そこで,Σk=1nVar[Xk]=E[Sn2]≧E[IAn2]=Σk=1nE[IAkn2]≧ε2Σk=1nP(Ak)=ε2P(A)=P(max(|S1|,|S2|,..,|Sn|)≧ε)が成立します。(証明終わり)

[定理9-13]:独立確率変数列:X1,X2,..があって,それぞれ平均ゼロと有限の分散和:Σk=1Var[Xk]<∞を持てば,P(Σk=1kが収束する)=1が成り立つ。

 

(これを"Σk=1kは概収束する。",あるいは,"ほとんど到るところで収束する。"という。)

(証明)Sk≡X1+X2+..+Xk=Σj=1kjと置けば,Sn+k-Sn=Xn+1+Xn+2+..+Xn+k-1です。

 

 一方,上記の[定理9-12]によれば,P(max(|S1|,|S2|,..,|Sn|)≧ε)≦(1/ε2){Σk=1n Var[Xk]}ですから,0≦P(max1≦k≦N(|Sn+k-Sn|)≧ε)≦(1/ε2){Σj=n+1n+N Var[Xj]}(N≧1)です。

両辺のN→ ∞ の極限を取ると, 0≦P(maxk≧1(|Sn+k-Sn|)≧ε)≦(1/ε2){Σj=n+1Var[Xj]}ですが,Σk=1Var[Xk]<∞ なる仮定によって,n→ ∞ に対して,右辺=Σj=n+1Var[Xj] → 0です。

そこで,(1/2ν)3>0 に対してpνが存在してΣj=pν+1Var[Xj]<(1/2ν)3=2-3νとなります。

 

よって,ε=1/2νと置けば,0 ≦P(maxk≧1(|Sn+k-Sn|)≧=1/2ν)≦2j= pν+1Var[Xj]}<2=1/2νが成立します。

したがって,Eν≡{ω∈Ω|maxk≧1(|Sn+k-Sn|)≧1/2ν}と置けばP(∪ν=1ν)≦Σν=1P(Eν)<Σν=12=1となります。そこで,n→∞ に対して,P(∪ν=nν)→ 0 です。

それ故,E≡∩n=1ν=nνと置けば,0 ≦P(E)≦P(∪ν=nν)→ 0,つまりP(E)=0 です。

 

そこで,P(Ec)=1 ですが,Ec=∪n=1ν=nνc,Eνc={ω∈Ω|maxk≧1(|Sn+k-Sn|)<1/2ν}={ω∈Ω|maxk≧1[|Σj= pν+1 pν+kj(ω)|]<1/2ν}です。

よって,ω∈Ecのとき,ある自然数nが存在してν≧nならω∈Eνc,つまり,|Σj= pν+1 pν+kj(ω)|<1/2ν≦1/2n (k≧1)です。

ω∈Ecならω∈Encですから,n≦pn≦mのとき|Σj=m+1 j(ω)|=|Σj=pn+1 j(ω)-Σj=pn+1 mj(ω)|≦|Σj=pn+1 j(ω)|+Σj=pn+1 mj(ω)|≦1/2n-1です。

 

つまり,ω∈Ecならn→ ∞ に対し|Σj=m+1 j(ω)|→ 0 です。それ故,P(Ec)≦P({ω∈Ω||Σj=m+1 j(ω)|→ 0 })です。

  

以上から,1=P(Ec)=P(∪n=1ν=nνc)=P(Σj=1 jが収束する。) が成り立ちます。 (証明終わり)

(注)これは2007年6/25の記事「ブラウン運動と伊藤積分(3)」で与えた(ボレル・カンテリ(Borel-Cantelli)の補題)とほぼ同じ内容です。

 

 すなわち,"{An}n=1,2,.を集合列としAをこれらの集合の無限個の共通に含まれる要素の集合,Pを確率測度とする。このとき,(a)ΣP(An)<∞ ならP(A)=0 (b)ΣP(An)=∞ で事象:Anが独立ならP(A)=1である。"という定理です。

 

(上記補題の証明):(a)A=∩r=1n=rnと書けます。よって∀rについてA⊂∪n=rnです。

 

ΣP(An)が収束するので,ε>0 を任意に取れば十分大きいrに対してP(A)≦P(∪n=rn)≦Σn=rP(An)<εです。そして,ε>0 が任意なのでP(A)=0 です。

(b)A=∩r=1n=rnより,Ac=∪r=1n=rncです。

 

故に,1-P(A)=P(Ac)=P(∪r=1n=rnc)≦Σr=1P(∩n=rnc)≦Σr=1Πn=r[1-P(An)]です。

 

ここで,ΣP(An)=∞ なので各rについて右辺の無限積は 0 に発散します。(Σlog[1-P(An)]≦-ΣP(An)=-∞ よりΠn=r[1-P(An)]=exp(-∞)=0 です。) 故に,P(A)=1です。(証明終わり)(注終わり)※

[定理9-14]:大数の強法則(strong rule of large numbers)

独立確率変数列:X1,X2,..が,各々平均:E[Xj]=μj(-∞<μj<∞),分散:Var[Xj]=σj2<∞を持てば,Sn≡X1+X2+..+Xnと置くとE[Sn]=μ1+μ2+..+μn=mnである。

 

もしも,Σj=1 σj2<∞ なら,P(limn→∞(Sn-mn)/n=0)=1 が成り立つ。

(証明):Uj≡(Xj-μj)/jと置けば,E[Uj]=0,かつVar[Uj]=σj2/j2です。

仮定によって,Σj=1Var[Uj]=Σj=1 σj2<∞ ですから,[定理9-13]よりP(Σj=1j=Σj=1(Xj-μj)/jが収束する。)=1 が成立します。そこで,Sn'≡Σj=1nj=Σj=1n(Xj-μj)/jと置けばP(n→∞でSn'が収束する)=1 です。

ところで,S1'=U1=X1-μ1,Sn'-Sn-1'=Un(n≧2),つまりn(Sn'-Sn-1')=Xn-μn(n≧2)なので,(Sn-mn)/n=(1/n){S1'+2(S2'-S1')+..+n(Sn'-Sn-1')}=Sn'-(Σj=1n-1j')/nと書けます。

(n→∞でSn'が収束する)=1 を,ほとんど到るところでlimn→∞n'=Sと表現すれば,ほとんどいたるところでlimn→∞j=1n-1j')/n=Sです。

 

したがってP(limn→∞(Sn-mn)/n=0)=1 を得ます。(証明終わり)

※ 独立確率変数の平均がほとんど到るところで平均値の平均に収束するというこの定理を大数の強法則といいます。※ 

次に確率関連の収束の種類をまとめます。 

1.確率収束(convergence in probability)

[定義10.1]:確率変数の列:{Xn}n=1,2..があって∀ε>0 に対しlimn→∞P(|Xn-X|>ε)=0 が成り立つとき,XnはXに確率収束するといい,Xn PXと書く。

[定理10.2]:独立確率変数列:X1,X2,..が同一の平均E[Xj]=μ,分散Var[Xj]=σ2を持てば,∀α>0 に対して,{(X1+X2+..+Xn-nμ)/n1/2+α}n P 0 (n→∞)である。

(証明) Yn≡(X1+X2+..+Xn-nμ)/n1/2+αと置けば,E[Yn]=0 ,Val(Yn)=nσ2/n1+2α=σ2/nです。

 よって,平均がμ,分散がσ2の確率変数Xに対するチェビシェフの不等式:P(|X-μ|>k)≦σ2/k2を適用すればP(|Yn|>ε)≦σ2/(ε2)→ 0 (n→∞)です。(証明終わり)

2.法則収束(convergence in distibution)

[定義10.3]:確率変数の列{Xn}n=1,2..,と別にある1つの独立変数XがあってXの分布関数F(x)の全ての連続点において,Xnの分布関数Fn(x)がlimn→∞n(x)=F(x)を満たすなら,{Xn}はXに法則収束するといい,Xn dX,またはdlimXn=Xと書く。

[例10.4]: 確率変数Xの確率分布が,P(X=0)=P(X=1)=1/2のとき,確率変数列:{Xn}をXn≡1+1/n-Xで定義すれば,Xn dX (n→∞)が成り立つ。

(証明):Xn≡1+1/n-Xなので,X=0 ⇔ Xn=1+1/n;X=1 ⇔ Xn=1/nです。そこでP(Xn=1+1/n)=P(X=0)=1/2,P(Xn=1/n)=P(X=1)=1/2です。

 一方,Xの具体的な分布関数は,F(x)=P(X≦x)= 0 (for x< 0),1/2 (for 0≦x<1),1(for x≧1)です。

 

 そして,x≦0 に対しては明らかにFn(x)=P(Xn≦x)=0 です。0<x≦1 に対してはn→∞で1/n≦xより,limP(Xn≦x)=1/2です。そしてx>1ならn→∞で1+1/n≦xより,limP(Xn≦x)=1です。(証明終わり)

[定理10.5]:確率変数列{Xn}が確率収束(Xn PX)するなら法則収束(Xn dX)する。

(証明) {Xn}が確率収束(Xn PX)するとします。

すると,Fn(x)=P(Xn≦x)=P(Xn≦x,X≦x+ε)+P(Xn≦x,X>x+ε)≦P(X≦x+ε)+P(Xn≦x,X>x+ε)≦P(X≦x+ε)+P(|Xn-X|≦ε)です。

一方,P(X≦x-ε)=P(Xn≦x,X≦x-ε)+P(Xn>x,X≦x-ε)≦P(Xn≦x)+P(Xn>x,X≦x-ε)≦P(Xn≦x)+P(|Xn-X|≦ε)です。

 以上から,P(X≦x-ε)-P(|Xn-X|≦ε)≦P(Xn≦x)≦P(X≦x+ε)+P(|Xn-X|≦ε)ですが,Xn P X,つまりlimn→∞P(|Xn-X|≦ε)=0 ですからP(X≦x-ε)≦limn→∞P(Xn≦x)≦P(X≦x+ε)が成立します。

 それ故,F(x)=P(X≦x)と置けばF(x-ε)≦limn→∞n(x)≦F(x+ε)です。そしてε>0 が任意なのでxがF(x)の連続点ならlimn→∞n(x)≦F(x),or Xn dXが成立します。(証明終わり)

[定理10-6]:確率変数列X1,X2,..が全て独立で,それぞれ平均:E[Xj]=μj,分散:Var[Xj]=σj2(j=1,2,..)を持つとする。このときn≡n-1/2Σj=1n{(Xj-μj)/σj}と置けば,各Xj3次の積率が有限のtきnはあるUに法則収束する。すなわち,Un d Uである。

ただし,Uは標準正規分布N[0.1]を持つ確率変数である。

(証明):Yj≡(Xj-μj)/σjと置くと,E[Yj]=0,Var[Yj]=1です。

 

 そこで中心極限定理により,分布関数の連続点ではn→∞ に対してP(Un≦x)=P({(Y1+Y2+.. +Yn)/n1/2}≦xj))→ (2π)-1/2-∞xexp(-u2/2)duです。

 

 したがって,Un d Uで,UはN[0,1]を持つ確率変数です。(証明終わり)

3.概収束(almosut sure convergence)

[定義10-7]:確率空間(Ω,,P)上の確率変数列:{Xn}n=1,2..,およびある1つの確率変数Xに対して,P({ω∈Ω|limn→∞n(ω)=X(ω)})=1 が成立するとき,XnはXに概収束するといい,Xn a.s Xと書く。

 ただし,a.s.はalmosut surely(ほとんど確実に)を意味します。a.s.の代わりにa.e.=almost everywhere(ほとんど到るところで)を用いることもあります。

[定理10-8]:∀ε>0 に対してlimn→∞P(∪j≧n{ω∈Ω||Xj(ω)-X(ω)|≧ε})=0 は,Xn a.s Xと同値である。

(証明):Ej(ε)≡{ω∈Ω||Xj(ω)-X(ω)|≧ε}と置きます。すると定理の仮定は,limn→∞P(∪j≧nj(ε))=0 と書き直せます。

n=1j≧nj(ε)⊂∪j≧nj(ε)ですから,0≦P(∩n=1j≧nj(ε))≦P(∪j≧nj(ε))→ 0 (n→∞),つまりP(limsupEn(ε))=limn→∞P(∩n=1j≧nj(ε))=0 です。

そこで,E≡∪p=1n=1j≧nj(1/p))と置けば,0≦P(E)≦Σp=1P(∩n=1j≧nj(1/p))=0 ,すなわちP(E)=0 です。

 

それ故,P(Ec)=1で,Ec=∩p=1n=1j≧n{Ej(1/p)}cです。

 そして,ω∈Ecとすると,任意の自然数pに対して,あるnが存在してj≧nなら|Xj(ω)-X(ω)|<1/pが成り立ちます。

 

 そこで,ω∈Ecならlimn→∞j(ω)=X(ω)です。故に,Ec⊂{ω∈Ωlimn→∞j(ω)=X(ω)}です。

 したがって,1=P(Ec)≦P({ω∈Ωlimn→∞j(ω)=X(ω)})≦1が成り立ちます。故に,P({ω∈Ωlimn→∞j(ω)=X(ω)})=1,つまり,Xn a.s Xです。

 逆に,Xn a.s X (n→∞),すなわちP({ω∈Ωlimn→∞j(ω)=X(ω)})=1 とします。

ω∈{ω∈Ωlimn→∞j(ω)=X(ω)}のとき,任意の自然数pに対しあるnが存在してj≧nなら|Xj(ω)-X(ω)|<1/pが成立します。

 

すなわち,任意の自然数pに対して適当なnを取ればω∈∩j=n{Ej(1/p)}cですが,これはω∈∩p=1n=1j=n{Ej(1/p)}c=Ecを意味します。

つまり,{ω∈Ωlimn→∞j(ω)=X(ω)}⊂Ecですから仮定により1=P({ω∈Ωlimn→∞j(ω)=X(ω)})≦P(Ec)≦1です。それ故,P(Ec)=1 です。故にP(E)=0 です。

 E=∪p=1n=1j=nj(1/p)より,任意のpに対して∩n=1j=nj(1/p)⊂EなのでP(∪j=nj(1/p))=0 です。

 

 つまり,limm→∞P(∩n=1mj=nj(1/p))=0 ,またはlimm→∞P(∪j=mj(1/p))=0 です。

 ところで,任意のε>0 に対しε≧1/pなるpを採用すると,ω⊂Ej(ε)のとき|Xj(ω)-X(ω)|≧ε≧1/pによってω⊂Ej(1/p),つまりEj(ε)⊂Ej(1/p)です。

 

 そこで,∪j=mj(ε)⊂∪j=mj(1/p)ですから,0 ≦P(∪j=mj(ε))⊂P(∪j=mj(1/p))→ 0 です。

 したがって,任意のε>0 に対して,limn→∞P(∪j=mj(ε))=0 が成立します。(証明終わり)

[例10-9]:確率変数Xが(0,1)上の一様分布を持つとき,確率変数列:{Xn}をXn≡X+δn(X)で定義する。ただし,δn(x)は,0≦x≦1/nならδn(x)=1,それ以外ではδn(x)=0 なる関数である。このとき,Xn a.s X (n→∞)が成立する。

(証明) Xj-X=δj(X)ですから,0<ε≦1を満たす任意のεに対して,|Xj-X|>εとなるのはδj(X)=1 のとき,つまり,0≦X≦1/jのときだけです。

 j≧nなら1/j≦1/nですから,0≦ε≦1/nなら∪j≧n{|Xj-X|>ε}={|Xj-X|>1/n}={0≦X≦1/n}です。また,ε>1 なら∪j≧n{|Xj-X|>ε}=φです。

 

 Xが(0,1)上の一様分布を持つことから,これはP(∪j≧n{|Xj-X|>ε})≦1/nを意味します。

したがって,limn→∞P(∪j≧n{|Xj-X|>ε})=0 です。故に,[定理10-8]からXn a.s X (n→∞)です。(証明終わり)

[例10-10]:確率変数列:{Xn}は各々の平均がゼロで分散:Var[Xn]の和:が有限:Σn=1Var[Xn]<∞ であるとする。このとき,Xn a.s 0 (n→∞)が成り立つ。

(証明):平均がμ,分散がσ2の確率変数Xに対するチェビシェフの不等式:P(|X-μ|>k)≦σ2/k2は今の場合P(|Xj|>ε)≦Var[Xj]/ε2となります。

 それ故,P(∪j≧n{|Xj|>ε})≦{Σj=nVar[Xj]}/ε2 → 0 (as n→∞)となります。故に,[定理10-8]からXn a.s 0 (n→∞)です。(証明終わり)

[定理10-11]:確率変数列:{Xn}が概収束(Xn a.s.X)するなら確率収束(Xn PX)する。

(証明):{Xn}が概収束するとします。

ε>0 を任意に取って,Ej(ε)≡{ω∈Ω}|Xj(ω)-X(ω)|>ε}と置けばEj(ε)c={ω∈Ω}|Xj(ω)-X(ω)|≦ε}です。

 

仮定:Xn a.s.XよりP(limn→∞n =X)=1 ですから,limn→∞P(∩j=nj(ε)c)=1,故にlimn→∞P(∪j=nj(ε))=0 です。

一方,P(|Xn-X|≧ε)=P({ω∈Ω||Xn(ω)-X(ω)|≧ε})≦P(∪j=n{ω∈Ω||Xj(ω)-X(ω)|≧ε})=P(∪j=nj(ε))ですから,任意のε>0 に対してlimn→∞P(|Xn-X|≧ε)=0,すなわち,Xn PXが成立します。(証明終わり)

(注):逆命題の「確率変数列{Xn}が確率収束(Xn PX)するなら概収束(Xn a.s.X)する。」は一般には成立しません。

実際,任意のε>0,δ>0 を与えると,n a.s.(概収束)の場合,あるNが存在してP(∪n=N{ω∈Ω|Xn(ω)-X(ω)|>ε})≦δ,つまりP(∩n=N{ω∈Ω|Xn(ω)-X(ω)|≦ε})>1-δが成立します。

 一方,Xn PX(確率収束)の場合,あるMが存在してn≧MならP({ω∈Ω|Xn(ω)-X(ω)|≦ε})>1-δが成立します。

上記の評価式は,概収束の場合はn=N,N+1,N+2,..について{ω∈Ω|Xn(ω)-X(ω)|≦ε}が同時に起こる確率が1に近いことを示していますが,確率収束の場合はn=M,M+1,M+2,..のそれぞれついて{ω∈Ω|Xn(ω)-X(ω)|≦ε}が起こる確率が1に近いことを示しているに過ぎません。

したがって,確率収束する場合,収束が起こる集合:{ω∈Ω|XM(ω)-X(ω)|≦ε}と集合:{ω∈Ω|XM+1(ω)-X(ω)|≦ε}の間に何の関係も要求されず,ただ,それぞれの確率が1に近いだけです。

一方,概収束する場合は{ω∈Ω|XM(ω)-X(ω)|≦ε}と{ω∈Ω|XM+1(ω)-X(ω)|≦ε}の共通集合の確率が1に近いことを意味するため,確率収束する場合より条件が厳しいです。(注終わり)※

4.二乗平均収束(convergebce in mean square)

[定義10-12]:確率変数列{Xn}n=1,2..,およびある1つの確率変数Xに対して,limn→∞E[(Xn-X)2]=0 が成立するとき,XnはXに二乗平均収束するという。

[定理10-13]: 確率変数列{Xn}が二乗平均収束するなら確率収束(Xn PX)する。

 

(証明):平均がμ,分散がσ2の確率変数Xに対するチェビシェフの不等式:P(|X-μ|>k)≦σ2/k2を今の場合に適用すると, 0 ≦P(|Xj-X|>ε)≦Var[Xj]/ε2=E[(Xn-X)2]/ε2となります。

 

そこで,{Xn}が二乗平均収束するなら,limn→∞E[(Xn-X)2]=0 よりlimn→∞P(|Xj-X|>ε)=0 ,or Xn PXです。(証明終わり)

今日はここまでにします。

 

当初の目的の重回帰係数のt検定の項目まで後一息です。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

  

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (0) | トラックバック (0)

2010年2月23日 (火)

確率と分布関数(6)(特性関数,極限定理)

 確率と分布関数の続きです。

 前回の離散変数中心の話題から連続変数を主とする話題に移ります。 

[定義9-1]:確率変数Xの積率母関数(moment generating function)を,

 MX(θ)≡E[exp(θX)] で定義する。

 ただし,E[exp(θX)]は∀θ∈Rについて常に存在するとは限らないので,この定義は右辺が存在するときに限られる。

 そこで,MX(θ)=E[exp(θX)]においてθをit(t∈R)に置き換えたもの:Xの特性関数(characteristic function)を,

 

 φ(t)≡E[exp(itX)](-∞<t<∞) で定義する。

 iは虚数:√-1を表わす。

  

 この定義では,E[exp(itX)]は∀t∈Rに対し絶対収束する。

 

(注1):特性関数の定義によれば,特にXが離散確率変数で前記事で定義した確率母関数:G(z)=E[zX]を持つなら,

 

 φ(t)=E[exp(itX)]=E[exp(it)X]=G(exp(it)) です。

 

また,Xが正値確率変数,つまりx<0 ならP(X≦x)=0 で,確率密度関数f(x)を持つ連続型変数のとき,

 

f(x)のLaplace変換は,

 

{f(x)}≡∫0exp(-sx)f(x)dx

 

で定義されます。

 

そこで,{f(x)}=E[exp(-sx)]ですが,右辺は

 

[exp(-sx)]=Σj=0{(-s)j}/j!}E[Xj]

 

のように,sのベキ級数に展開されます。

 

故に,[d{f(x)}/ds]x=0=-E[X],

 [d2{f(x)}/ds2]x=0=E[X2],etc.が成立します。

 

他方,Xが正値とは限らず一般の確率密度関数f(x)を持つ連続変数のとき,特性関数は,

 

φ(t)=E[exp(itX)]=∫-∞exp(itx)f(x)dx です。

 

これは,f(x)のFourier変換:{f(x)}ですね。私にはこちらの方がLaplace変換より馴染み深いです。※

 

[例9-2]:確率密度関数(p.d.f)が正規分布:N[μ,σ2]:

 

 f(x)=(2π)-1/2σ-1exp{-(x-μ)2/(2σ2)}(-∞<x<∞)

 

のとき,

 E[exp(-sx)]=∫-∞exp(-sx)f(x)dx を求める。

 

(解): E[exp(-sx)]

=(2π)-1/2σ-1-∞exp{-(x-μ)2/(2σ2)-sx}dx

=π-1/2-∞exp{-(u2+21/2σsu+μs)}du

 

=π-1/2exp(σ22/2-μs)∫-∞exp{-(u+21/2σs/2)2}du

=exp(σ22/2-μs)

 

です。

 

(注2):E[exp(-sx)]=exp(σ22/2-μs)に,s=-itを代入するとE[exp(itX)]=exp(iμt-t2σ2/2)を得ます。

 

 よってN[μ,σ2]の特性関数はφ(t)=exp(iμt-t2σ2/2) です。

 

 特に標準正規分布N[0,1]ならφ(t)=exp(-t2/2)です。 ※

 

[定理9-3]:(特性関数の性質)

 

(1)  φ(0)=1

(2)|φ(t)|≦1.

 

(3)φ(k)(0)=ikE(Xk) 

(4)Y=aX+bの特性関数はexp(itb)φ(at)である。

 

(5)確率密度関数f(x)が存在して偶関数:f(-x)=f(x)なら,

 φ(t)は実関数である。

 

(証明):(1)φ(0)=E(1)=∫-∞dF=1 です。

  

(2)|φ(t)|=|E[exp(itX)]=|∫-∞exp(itX)dF|です。

 

 そして,|∫-∞exp(itX)dF|≦∫-∞|exp(itX)|dF=∫-∞dF=1 です。

 

(3)φ(t)=E[exp(itX)]=E[Σk=0ikkk/k!]=Σk=0ikkE[Xk]/k!です。そこで,φ(k)(0)=ikE[Xk]が成立します。

 

(4)φY(t)=E[exp(itY)]=E[exp{it(aX+b)}]

=exp(itb)E[exp{i(at)X}]=exp(itb)φ(at) です。

 

(5)φ(t)=E[exp(itX)]=∫-∞exp(itx)f(x)dx

=(1/2)∫0{exp(itx)f(x)+exp(-itx)f(-x)}dxです。

 

 故にf(-x)=f(x)なら,φ(t)=∫0f(x)[{exp(itx)f(x)+exp(-itx)}/2]dx=∫0f(x)∫0f(x)cos(tx)dxです。

 

 cos(tx)も密度関数f(x)も実関数ですから,φ(t)も実関数と結論できます。(証明終わり)

 

(注3):この定理における性質(3)φ(k)(0)=ikE(Xk)から,

 

 E[X]=-iφ'(0),Var[X]=E[X2]-E[X]2=-φ"(0)+{φ'(0)}2によって特性関数によるXの平均,分散の表現が得られます。 ※

 

[定理9-4]:確率変数Xの分布関数F(x)は特性関数φ(t)によって一意的に決定される。

 

(証明)φ(t)≡E[exp(itX)]なる定義から,F(x)=P(X≦x)=∫-∞xf(x)dxを満たす確率密度関数f(x)が存在すればφ(t)=∫-∞exp(itx)f(x)dx={f(x)}と書けます。

 

これのFourier逆変換から,逆に特性関数φ(t)が与えられれば密度関数はf(x)=(2π)-1-∞exp(-itx)φ(t)dtによって一意的に決まります。

 

そして,-∞<x1<x2<∞なる任意の2実数x1,x2に対してF(x2)-F(x1)=P(x1<X≦x2)=∫x1x2f(x)dx=-(2πi)-1-∞[{exp(-itx2)-exp(-itx1)}φ(t)/t]dtと書けます。

 

証明は省略しますが,密度関数が存在するとは限らない一般のφ(t)=∫-∞exp(itx)dFなる表現の場合でも,

 

F(x)の連続点x1<x2においてF(x2)-F(x1)=P(x1<X≦x2)=-(2πi)-1-∞{φ(t)/t}{exp(-itx2)-exp(-itx1)}dtが成立します。(証明終わり)

 

[定義9-5]:k次元確率変数=(X1,X2,..,Xk)に対して

 

 の特性関数を,φ()≡E[exp(itX)]=E[exp(iΣj=1kjj)],

  

 t=(t1,t2,..,tk)によって定義する。

 

(注4):上記のφ()に対しても,1変数の式:

P(x1<X≦x2)=-(2πi)-1-∞{φ(t)/t}{exp(-itx2)-exp(-itx1)}dtを拡張した,

 

P(X∈)=(-2πi)-kΠj=1k-∞[{exp(-itbj)-exp(-itaj)}/tj]φ()が成立します。

 

ここに,{=(x1,x2,..,xk)|aj<xj≦bj;1≦j≦k},∫-∞≡∫-∞dt1-∞dt2d..∫-∞dtkです。

 

特にX1,X2,..,Xkが全て独立な確率変数で,それぞれ特性関数:

 

φX1(t),φX2(t),..,φXk(t)を持つなら,

 

φ()=φX1(t1X2(t2)..φXk(tk)です。

 

 逆に,φ()=φX1(t1X2(t2)..φXk(tk)なら,X1,X2,..,Xkは独立です。※

 

[定理9-6]:X1,X2が独立で共に標準正規分布:N[0,1]を持つとき,

 Y=X1-X2,Z=X1+X2は独立で共に正規分布:N[0,2]を持つ。

 

(証明)定義によって(Y,Z)の特性関数は,

φ(Y,Z)(t1,t2)=E[exp(it1Y+it2Z)]=E[exp{i(t1+t2)X1+(t1-t2)X2}]です。

 

ところがX1,X2は独立で特性関数は

φXj(t)=exp(-t2/2)(j=1,2)ですから,

 

E[exp{i(t1+t2)X1+(t1-t2)X2}]=E[exp{i(t1+t2)X1}]E[exp{i(t1-t2)X2}]です。

 

そこで(Y,Z)(t1,t2)=φX1(t1+t2X2(t1-t2)=exp{-(t1+t2)2/2}exp{-(t1-t2)2/2}=exp(-t12)exp(-t22)です。

 

つまり,φ(Y,Z)(t1,t2)=E[exp(it1Y+it2Z)]=exp(-t12)exp(-t22)となりt1だけの関数とt2だけの関数の積に分解されます。

 

これは,E[exp(it1Y+it2Z)]=E[exp(it1Y)]E[exp(it2Z)]であって,E[exp(it1Y)]=exp(-t12),E[exp(it2Z)]=exp(-t22)を意味します。

 

 したがって,Y=X1-X2,Z=X1+X2は独立で共に正規分布:N[0,2]を持つことが示されました。(証明終わり)

 

※次に極限定理(limit theorem)をいくつか与えます。

 

[定理9-7]:ベルヌーイの大数の法則(Bernoulli's law of large numbers)

  

 P(Xj=1)=p,P(Xj=0)=q=1-pのベルヌーイ試行(独立試行):X1,X2,..において,n≡X1+X2+..Xnとおけば,

 

 ∀ε>0 に対してlimn→∞P(|(Sn/n)-p|<ε)=1が成り立つ。

 

(証明)この各試行XjではE[Xj]=p,Var[Xj]=(1-p)2p+(0-p)2q=pq=p(1-p)(j=1,2,..,n)です。

 

 そして,ベルヌーイ試行=独立試行ですから

E[Sn]=E[X1+X2+..Xn]=np,Var[Sn]=Var[X1+X2+..Xn]=np(1-p)です。

 

 そこで,E[Sn/n]=E[(X1+X2+..Xn)/n]=p,

 Var[Sn/n]=Var[(X1+X2+..Xn)/n]=p(1-p)/n です。

 

先に示したチェビシェフの不等式: 

P(|X-μ|≧kσ)≦1/k2において,

 

X=Sn/n,μ=p,σ={p(1-p)/n}1/2, 

k=ε/σ=εn1/2-1/2(1-p)-1/2とすると,

 

P(|Sn/n-p|≧ε)≦p(1-p)/(nε2)≦1/(4nε2)

 となります。

 

それ故,limn→∞P(|(Sn/n)-p|≧ε)=0,

 

あるいはlimn→∞P(|(Sn/n)-p|<ε)=1-limn→∞P(|(Sn/n)-p|≧ε)=1 得ます。(証明終わり)

 

[定理9-8]:大数の法則(大数の弱法則)(weak law of large numbers)

 

 {Xn}n=1,2,.は互いに独立な確率変数列で各Xnが有限な分散:σn2=Var[Xn](n=1,2,..)を持ち,

 

lim n→∞j=1nσj2/n2)=0 なら,変数Sn≡Σj=1nj=X1+X2+..Xnに対して,∀ε>0 について,

  

lim n→∞P(|(Sn/n)-E[Sn/n]|<ε)=1 が成り立つ。

 

(証明) Var[Σj=1nj/n]=Σj=1nσj2/n2です。

 

 そこでチェビシェフの不等式:P(|X-μ|≧kσ)≦1/k2において,

 

 X=Sn/n,μ=E[Sn/n],σ=(Σj=1nσj2/n2)1/2,

 k=ε/σとすると,

 

 P(|Sn/n-E[Sn/n]|≧ε)≦(Σj=1nσj2)/(n2ε2)を得ます。

  

 そこで,lim n→∞j=1nσj2/n2)=0 なら

 lim n→∞P(|(Sn/n)-E[Sn/n]|≧ε)=0,

 

 あるいは,

 

 lim n→∞P(|(Sn/n)-E[Sn/n]|<ε)=1-limn→∞P(|(Sn/n)-E[Sn/n]|≧ε)=1 です。(証明終わり)

 

[定理9-9]:中心極限定理(central limit theorem)

  

 X1,X2,..,Xnは,それぞれ分布関数F1(x),F2(x),..,Fn(x)を持つ互いに独立な確率変数で,

 

 有限な平均μj=E[Xj],有限な分散σj2=Var[Xj](j=1,2,..,n)

 

 を持つと仮定する。

 

n2Var[X1+X2+..Xn]=σ12+σ22+..σn2 (Sn>0)は,

 

:"ε>0 に対してlimn→∞(1/Sn2j=1n|x-μj|≧εSn(x-μj)2dFj(x)=0 "

 

というLindbergの条件を満たすと仮定する。

 

このとき,Yn{(X1+X2+..Xn)-E[X1+X2+..Xn]}/Snの分布は

 

n→∞ の極限で正規分布:N[0,1]に収束する。

 

(証明) j≡Xj-E[Xj]=Xj-μjとおけば,

 E[Uj]=0,Var[Uj]=σj2です。

 以下では,

 

 Ujの分布関数をF~j(u)≡Fj(x-μj)と書くことにします。

 

 さて,Yn={Σj=1nj}/Snの特性関数を

 

 φYn(t)=E[exp(itYn)] と書きます。

 

 Uj(1≦j≦n)は全て独立なので,φYn(t)はUjの特性関数φj(t)=E[exp(itUj)]の積として

 

 φYn(t)=Πj=1nφj(t/Sn)と書けます。

 

 対数表現ではlog{φYn(t)}=Σj=1nlog{φj(t/Sn)}です。

 

 さらに,log{φj(t/Sn)}={φj(t/Sn)-1}-(1/2){φj(t/Sn)-1}2+(1/3)){φj(t/Sn)-1}3-..なる級数展開から,

|log{φj(t/Sn)}-{φj(t/Sn)-1}|≦(1/2)|φj(t/Sn)-1|2/{1-|φj(t/Sn)-1|} なる評価式を得ます。

 

 そこで,|log{φYn(t)}-Σj=1nj(t/Sn)-1}|

≦(1/2)max(1≦j≦n)j(t/Sn)-1|/{1-|max(1≦j≦n)j(t/Sn)-1|}Σj=1nj(t/Sn)-1| です。

 

 ところで,φj(t)=E[exp(itUj)]

 =∫-∞exp(itu)dF~j(u)Σj=1nj(t/Sn)-1|

 =Σj=1n|∫-∞{exp(itu/Sn)-1}dF~j(u)| です。

 

 そして,exp(itu/Sn)はTaylor展開と平均値の定理から,

 exp(itu/Sn)=1+itu/Sn+θt22/(2Sn2) (|θ|≦1)

  

 と書けます。

  

 故に,Σj=1nj(t/Sn)-1|

=Σj=1n |(it/Sn)∫-∞udF~j+t2/(2Sn2))∫-∞θu2dF~j|

 

≦{t2/(2Sn2)}Σj=1n-∞2dF~j|≦t2n2/(2Sn2) です。

 

 すなわち,Σj=1nj(t/Sn)-1|≦t2/2です。

 

  Lindbergの条件から,n→ ∞の極限で∀ε>0 に対して

Σj=1n|x-μj|≧εSndFj(x)≦{1/(ε2n2)}[Σj=1n|x|≧εSn2dFj ] → 0 です。

 

 つまり,十分大きい正整数n1を取れば,n≧n1を満たす正整数nに対して,常にΣj=1n|x-μj|≧εSndFj(x)<εが成り立ちます。

 

これはUjの言葉ではΣj=1n|u|≧εSndF~j(u)<εです

  

 また,|exp(itu/Sn)-1|≦2,|exp(itu/Sn)-1|≦|tu|/Snですから,

 

j(t/Sn)-1|≦|∫|u|>εSn{exp(itu/Sn)-1}dF~j(u)|+|∫|u|≦εSn{exp(itu/Sn)-1}dF~j(u)|

 

≦2∫|u|>εSndF~j(u)+(|t|/Sn|)(εSn)∫|u|≦εSndF~j(u)

 

 です。

  

 そこで,r>0 に対し|t|<rなら

 

j(t/Sn)-1|≦2∫|u|>εSndF~j(u)+rε が成立します。

  

 つまり,n≧n1,かつ|t|<rなら,max(1≦j≦n)j(t/Sn)-1|<(2+r)εです。

  

 これはn→∞ のとき,|t|<rで一様にmax(1≦j≦n)j(t/Sn)-1|→ 0 となることを意味します。

 

 それ故,n→∞では,log{φj(t/Sn)}→{φj(t/Sn)-1},あるいはlog{φYn(t)}→Σj=1nj(t/Sn)-1}となることがわかります。 

  

 さらに,exp(itu/Sn)=1+itu/Sn-t22/(2Sn2)+θ't33/(6Sn3)(|θ'|≦1)であり,

 σj2-∞2dF~j(u)です。

 

 これと先の2次までの展開近似:

  

 exp(itu/Sn)=1+itu/Sn-θt22/(2Sn2)(|θ|≦1)

 を併用してΣj=1nj(t/Sn)-1}の極限値を評価します。

  

 Σj=1nj(t/Sn)-1}

=Σj=1n-∞{exp(itu/Sn)-1}dF~j(u)

=Σj=1n[-t2σj2/(2Sn2)+(1-θ)t2/(2Sn2)∫|u|>εSn2dF~j(u)+∫|u|≦εSn{-t22/(2Sn2)+θ't33/(6Sn3)}dF~j(u)]

 

と書けます。

 

 Lindbergの条件:limn→∞(1/Sn2j=1n|u|>εSn2dF~j(u)=0 によれば,

 

 ∀ε>0 に対してn≧n1,かつ|t|<rなら|Σj=1nj(t/Sn)-1}+t2/2|=|Σj=1nj(t/Sn)-1+(t2σj2)/(2Sn2)}|<εr2/2+ε22/2+ε33/6 が成立します。

 

 ε>0,r>0 は任意ですから,n→ ∞で

 

 Σj=1nj(t/Sn)-1}→ (-t2/2)より,

 

 log{φYn(t)}→ (-t2/2),

 あるいはφYn(t)→ exp(-t2/2)を得ます。

   

 そして,exp(-t2/2)は標準正規分布:[0,1]の特性関数です。

 

 以上から,

 

 分布に対する特性関数の一意性により定理の結論が従います。(証明終わり)

 

まあ,ここでの確率の母関数とか特性関数とかいうのは,物理学での統計物理学における分配関数,または状態和と呼ばれる関数と同じく,

 

それ自身の明確な意味はいま一つわからないが,その中に実際上必要な情報がほとんど含まれているようなものですね。

 

今日はここまでにします。(つづく)

 

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会),

 ヒンチン(河野繁雄 訳)「統計力学の数学的基礎」(東京図書), 

 清水良一 著「中心極限定理」(教育出版)

 

PS:女子フィギュアのSP見ました。

 

 キム・ヨナも19歳の割りに色っぽくてよかったけど,私の中ではアメリカの高校生:レイチェル・フラットが最高でした。

 

 フィギアスケートの演技というよりダンスとして見てました。。。

 

 真央ちゃんは,まだ親方に連れられた角兵衛獅子?というか子供の軽業師(差別語?)というか?

 

 まだ大人の女性という感じがしません。

 

 女子の体操競技であれば,昔の子供だったコマネチのように技術だけあれば十分で芸術という側面は小さいのでしょうが。。。 

 

↑(何見とるんじゃ?>エロオヤジ 

 女子フィギュアスケートはストリップ・ショーじゃないぞ。。)

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (0) | トラックバック (0)

2010年2月22日 (月)

確率と分布関数(5)(積率,母関数)

 確率と分布関数の続きです。期待値,分散などの積率を求めるための母関数の項目に入ります。

[定義7-1]:確率変数Xが離散型ならその確率分布{pj}はΣj|xj|pj<∞を満たし,Xが連続型なら分布関数は絶対連続で密度関数f(x)が存在して∫-∞|x|f(x)dx<∞を満たすとする。

 

 この条件下でXが離散型ならE[X]をE[X]≡Σjjj,Xが連続型ならE[X]≡∫-∞xf(x)dxと定義し,これを確率変数Xの期待値(expectation value)と呼ぶ。

より一般的には,スティルチェス積分を用いて∫-∞|x|dF<∞の条件下でE[X]≡∫-∞xdFと定義することもできます。

以下では,Xが連続型確率変数のときには確率密度関数f(x)が存在する場合を仮定します。

[例7-2]:Xが∫-∞|x|f(x)dx<∞を満たす連続型変数でx<0 ならF(x)=P(X≦x)=0 の正値確率変数のとき,Xの期待値はE[X]=∫0xf(x)dx=∫0{1-F(x)}dxを満たす。

(証明) ∫0xf(x)dx=limα→∞0αxf(x)dx=limα→∞[αF(α)-∫0αF(x)dx]=limα→∞[-α{1-F(α)}+∫0α{1-F(x)}dx]です。

ところが,∫0|x|f(x)dx=∫0α|x|f(x)dx+∫α|x|f(x)dx<∞ よりlimα→∞α|x|f(x)dx=0 です。

 

したがって,0≦α{1-F(α)}=α∫αf(x)dx≦∫α|x|f(x)dx → 0です。

以上から,∫0xf(x)dx=∫0{1-F(x)}dx]を得ます。(証明終わり)

[例7-3]:集合A∈Fの指示関数(定義関数)IAの期待値はE(IA)=1・P(A)+0・P(Ac)=P(A)です。

[例7-4]:特殊な離散分布の期待値 

(ⅰ)幾何分布:P(X=j)=pqj-1 (j=1,2,..;p>0,q=1-p>0) (j=0,1,2,..;p>0,q=1-p>0)の場合

 

 E[X]=Σj=1jpqj-1ですからqE[X]=Σj=1jpqj=Σj=1jpqj=Σj=2(j―1)pqj-1です。

 

 故に,(1-q)E[X]=pE[X]=p+Σj=2pqj-1=p+(1-p)=1であり,したがってE[X]=1/pを得ます。

(ⅱ)2項分布:P(X=j)=njjn-jの場合

  

 E[X]=Σj=0njjn-j=npΣj=1[(n-1)!/{(j-1)!(n-j)!}pj-1n-j=np

(ⅲ)ポアソン(Poisson)分布:P(X=j)=λjexp(-λ)/j! (j=0,1,2,..;λ>0)の場合

 

 E[X]=Σj=0jλjexp(-λ)/j!=λΣj=1λj-1exp(-λ)/(j-1)!=λ

[例7-5]:確率変数Xが正規分布:N[μ,σ2]を持つなら,その期待値はE[X]=μである。

(証明) 正規分布:N[μ,σ2]の確率密度関数はf(x)=(2π)-1/2σ-1exp{-(x-μ)2/(2σ2)}(-∞<x<∞)です。

 これについては,∫-∞|x|f(x)dx=(2π)-1/2σ-1-∞|x|exp{-(x-μ)2/(2σ2)}dx=(2π)-1/2σ-10xdx[exp{-(x-μ)2/(2σ2)}+xexp{-(x+μ)2/(2σ2)}です。

 

 変数置換すると,∫-∞|x|f(x)dx=π-1/2-μ/(√2σ)(√2σy+μ)exp(-y2)dy+π-1/2μ/(√2σ)(√2σz-μ)exp(-z2)dzより,∫-∞|x|f(x)dx<∞ です。

 そして,E[X]=∫-∞xf(x)dx=(2π)-1/2σ-1-∞xexp{-(x-μ)2/(2σ2)}dx=(2π)-1/2-∞yexp(-y2)dy+(2π)-1/2μ∫-∞exp(-y2)dy=μです。(証明終わり)

[例7-6]:特殊な連続分布の期待値

(ⅰ)指数分布:p.d.f:f(x)=λexp(-λx) (0≦x<∞;λ>0),f(x)=0 (x<0)の場合

 

 E[X]=∫-∞xf(x)dx=∫0λxexp(-λx)dx=[-xexp(-λx)] 0+∫0exp(-λx)dx=1/λ

(ⅱ)χ2分布:p.d.f:f(x)=[1/{2n/2Γ(n/2)}xn/2-1exp(-x/2) (x>0),f(x)=0 (x≦0)の場合

 

 E[X]=∫-∞xf(x)dx=[1/{2n/2Γ(n/2)}∫0n/2exp(-x/2)dx={2/Γ(n/2)}∫0n/2exp(-t)dt=2Γ(n/2+1)/Γ(n/2)=n

(ⅲ)ベータ分布:β(x;p,q):p.d.f:f(x)=Β-1(p,q)xp-1(1-x)q-1 (0<x<1,p,q>0),f(x)=0 (その他)の場合

 

 E[X]=∫-∞xf(x)dx=Β-1(p,q)∫01p(1-x)q-1dx=Β(p+1,q)/Β(p,q)=Γ(p+1)Γ(q)Γ(p+q)/[Γ(p+1+q)Γ(p)Γ(q)]=p/(p+q)

※(注1):確率変数Xの関数g(X)が確率変数となるとき,その期待値はXが離散型ならE[g(X)]=Σjg(xj)pj<∞,連続型ならE[g(X)]=∫-∞g(x)f(x)dxです。

 

 これらをまとめると,E[g(X)]=∫-∞g(x)dFです。

確率変数Xの関数g1(X),g2(X)が共に確率変数のとき,ag1(X)+bg2(X)も確率変数であり,E[ag1(X)+bg2(x)]=aE[g1(X)]+bE[g2(x)]です。

 

これを,期待値の線形性(linearity)といいます。特に,E[aX+b]=aE[X]+bです。

(証明)g1(X),g2(X)が共に確率変数のとき,ag1(X)+bg2(X)も確率変数となることは自明です。

 

 そして,E[ag1(X)+bg2(X)]=∫(ag1(x)+bg2(x))dF=a∫g1(x)dF+b∫g2(x)dF=aE[g1(X)]+bE[g2(x)]です。(証明終わり) ※

[定義7-7]:確率変数Xの関数Xk(k=1,2,..)の期待値:E[Xk]をXのk次の積率(moment)といい,これをμk'と表わす。特に,μ1'=E[X]は単にμと表記し,これをXの平均(mean)と呼ぶ。

[定義7-8]:確率変数Xの関数:(X-μ)k(k=1,2,..)の期待値μk≡E[(X-μ)k]を,Xの平均の周りのk次の積率という。

 

 特にσ2≡μ2=E[(X-μ)2]をXの分散(variance)と呼ぶ。これをVar[X]と表記することもある。さらに,σ=E[(X-μ)2]1/2=(Var[X])1/2を標準偏差(standard deviation)と呼ぶ。

※(注2):Xの分散はσ2=E[(X-μ)2]=E[X2-2μX+μ2]=E[X2]-2μE[X]+μ2=E[X2]-μ2=μ2'-μ2と表わせます。 ※

[定理7-9]:チェビシェフの不等式(Chebyshev's inequality)

 確率変数Xが平均μ,分散σ2を持つなら,任意の正の数kに対して,不等式:P(|x-μ|≧kσ)≦1/k2,あるいはP(|x-μ|≧k)≦σ2/k2が成り立つ。

(証明)σ2=E[(X-μ)2]=∫-∞(x-μ)2dF=∫-∞μ-kσ(x-μ)2dF+∫μ-kσμ+kσ(x-μ)2dF+∫μ+kσ(x-μ)2dF≧∫|x-μ|≧kσ(x-μ)2dF≧k2σ2|x-μ|≧kσdF=k2σ2P(|x-μ|≧kσ)です。

 そこで,P(|x-μ|≧kσ)≦1/k2が成立します。

 

 この式で,k=K/σと置けばP(|x-μ|≧K)≦σ2/K2を得ます。(証明終わり)

※(注3):確率変数X,Yの関数g(X,Y)が確率変数となる場合

 

 X,Yが離散型で同時確率分布がp(xi,yj)≡P(X=xi,Y=yj)で与えられるなら,g(X,Y)の期待値はE[g(X,Y)]=ΣiΣjg(xi,yj)p(xi,yj)です。

一方,X,Yが連続型で同時確率密度関数:f(x,y)が存在するとき,E[g(X,Y)]=∫-∞-∞g(x,y)f(x,y)dxdyです。

 

離散型と連続型をまとめた表現では,E[g(X,Y)]=∫g(x,y)dFと書けます。特に,E[aX+bY]=∫(ax+by)dF=aE[X]+bE[Y]です。

 

これを拡張して,一般にX1,X2,..,Xn をn個の確率変数とするとき,任意の定数:a1,a2,..,anに対して,E[Σjjj]=ΣjjE[Xj]が成立します。

また,E[XY]=∫xydF=ΣiΣjijp(xi,yj)(離散型),E[XY]=∫xydF=∫-∞-∞xyf(x,y)dxdy(連続型)と書けます。

特に,XとYが独立の場合には,X,Yが連続型のときを例に取ると,f(x,y)=fX(x)fY(y)によって,E[XY]=∫xydF=∫-∞-∞xyf(x,y)dxdy=∫-∞-∞xyfX(x)fY(y)dxdy=E[X]E[Y]となります。

 

実際にはX,Yが連続型,離散型によらずXとYが独立ならE[XY]=E[X]E[Y]が成立します。 ※

[定義7-10]:X,Yが連続型確率変数で同時確率密度関数f(x,y)が存在してfY(y)=∫-∞f(x,y)dx>0 のとき,Y=yの下でのXの条件付確率密度をf(x|y)≡f(x,y)/fY(y)とする。

 

 このとき,Y=yの下でのXの条件付期待値をEX|Y=y[X]=E[X|Y=y]≡∫-∞xf(x|y)dxで定義する。

(X,Yが離散型のときには,p(xi|yj)≡p(xi,yj)/{Σip(xi,yj)},EX|Y=yj[X]=E[X|Y=yj]=Σiip(xi|yj)である。)

 

※(注4):E[XY]=∫xydF=∫-∞-∞xyf(x,y)dxdy=∫-∞-∞xyf(x|y)fY(y)dxdy=∫-∞dyfY(y)[∫-∞xyf(x|y)dx]=∫-∞X|Y=y[XY]fY(y)dyです。

 

 すなわち,E[XY]==EY[EX|Y=y[XY]]を得ます。

一般に,E[g(X,Y)]=EY[EX|Y=y[g(X,Y)]が成立します。

 

条件付期待値については,2007年7/7の記事「条件付確率と条件付期待値」に詳述してあるのでこれ以上深入りしません。 ※

[定理7-11]:シュワルツの不等式(Schwarz's inequality)

 ,Yが2次の積率:E[X2],E[Y2]を持てば,E[XY]も存在してE[XY]2≦E[X2]E[Y2]である。

(証明)E[X2]<∞,E[Y2]<∞ ならE[X2+Y2]<∞ です。そして,|ab|≦(a2+b2)なので,E[XY]も存在します。

 

 そして,∀t∈Rについて(tX+Y)2≧0 よりE[(tX+Y)2]=t2E[X2]+2tE[XY]+E[Y2]≧0 が成立します。

 

 故に,左辺をtの2次式と見たときの判別式は非正:D/4=E[XY]2-E[X2]≦0 です。等号の成立は,確率1でY=-tXとなる,つまり確率1でXとYが比例関係にある場合だけです。(証明終わり)

[定義7-12]:E[X],E[Y],E[XY]が存在するとき,Cov[X,Y]≡E[(X-E[X])(Y―E[Y])]=E[XY]-E[X]E[Y]をXとYの共分散(covariance)という。

 

※(注5):特に,XとYが独立ならE[XY]=E[X]E[Y]なので,共分散:Cov[X,Y]=E[XY]-E[X]E[Y]=0 です。

確率変数X,YについてVar[X+Y]=E[(X+Y)2]-E[X+Y]2=E[X2]+2E[XY]+E[Y2]-{E[X]2+2E[X]E[Y]+E[Y]2}=Var[X]+Var[Y]-2Cov[X,Y]です。

一般に,n個の確率変数X1,X2,..,Xn と任意定数a1,a2,..,anに対して,Var[Σj=1njj]=Σj=1nj2Var[Xj]+2Σi>jnijCov[Xi,Xj]が成立します。

 

特に,X1,X2,..,Xn が全て独立変数なら,Var[Σj=1njj]=Σj=1nj2Var[Xj]となります。

ここで,E[Xj]=μ,Var[Xj]=σ2(j=1,2,..,n)の場合,<X>≡(X1+X2+..+Xn)/nと置けばE[<X>]=μですが,aj=1/n(j=1,2,..,n)とすれば上の等式はVar[<X>]=σ2/nを意味します。

[定義7-13]:XとYがそれぞれ平均の周りの2次の積率:Var[X]≠0,Var[Y]≠0を持つとき,ρ≡Cov[X,Y]/{Var[X]Var[Y]}1/2をXとYの相関係数(correlation coefficient)という。

ここで,XとYが独立ならCov[X,Y]=0 よりρ=0 です。これをXとYは無相関であると言うこともあります。

[定理7-14]:XとYの相関係数:ρは-1≦ρ≦1を満たす。等号はXとYの間に1次関係が存在するときに限られる。

(証明)X1=X-E[X],Y1=Y-E[Y]と置けば,Var[X]=E[X12],Var[Y]=E[Y12],Cov[X,Y]=E[X11]です。

 

 そして,[定理7-11]のシュワルツの不等式からE[X11]2≦E[X12]E[Y12]なので,Cov[X,Y]2≦Var[X]Var[Y]です。

 

 よって,Var[X]≠0,Var[Y]≠0 なら,ρ2≦1 or -1≦ρ≦1です。

[定理7-11]より,等号はX1=X-E[X]とY1=Y-E[Y]が比例関係にあるとき,つまり,aX1+bY1=0,or aX+bY=aE[X]+bE[Y]のときだけです。

 

そして,aX+bY=kなら,常にaE[X]+bE[Y]=kとなりますから,X1とY1が比例関係にあることはXとYがaX+bY=kなる1次関係を有することと同値です。(証明終わり)

[定義8-1]:実数列{aj}j=0,1,..の母関数(generating function)A(z)は次のzのベキ級数の右辺が収束するときA(z)≡Σj=0jj (|z|<R0;R0は適当な正の実数)によって定義される。

そして,離散型確率変数Xの確率分布をpj=P(X=xj)とするときG(z)=Σj=0jj=E(zX)(|z|≦1)をXの確率母関数という。

 

※(注6):(確率母関数の性質)

 

明らかに,G(1)=Σj=0j=1です。また,pj=[djG/dzj]z=0/j!=G(j)(0)/j!です。

  

G'(1)=Σj=1jpj=E[X]です。

 

さらに,G"(1)=Σj=2j(j-1)pj=Σj=02j-Σj=0jpj=E[X2]-E[X]です。それ故,E[X2]=G"(1)+G'(1),Var[X]=G"(1)+G'(1)-[G'(1)]2です。 ※

[定理8-2]:離散型確率変数Xの確率分布:pj=P(X=xj)において,{xj}j=0,1,..がx1≦x2≦..と順序付けられているとする。

 

 このとき,Qr≡P(X>x)=Σj=r+1jと定義すると{Qr}r=0,1,..の母関数Q(z)=Σr=0rrと,確率母関数G(z)=Σj=0jjの間に式:Q(z)={1-G(z)}/(1-z)が成り立つ。

(証明):Q(z)=Σr=0rr=Σr=0rj=r+1j)=Σj=1r=0j-1r)pj=(1-z)-1Σj=1(1-zj)pj={1-G(z)}/(1-z)です。(証明終わり)

[定理8-2の系]:E[X]=G'(1)=lim z→1{G(z)-G(1)}/(z-1)=limz→1Q(z)である。

 

※(注7):1,X2,..,Xkが互いに独立な確率変数なら,X≡X1+X2+..+Xkの確率母関数G(z)はG(z)=E[zX]=E[zX1+X2+..+Xk]=E[zX1]E[zX2]..E[zXk]=Πj=1kXj(z)となります。

 

 特に,X1,X2,..,Xkが全て同一の分布を持つ独立変数列ならGX1(z)=GX2(z)=..=GXk(z)より,G(z)=[GX1(z)]kです。 ※

[例8-3]:X1,X2,..,Xkが互いに独立で,次の同一分布pjを持つ確率変数のとき,X≡Σj=1kj=X1+X2+..+Xkの確率母関数:G(z),および確率分布:Pjを求めます。

(ⅰ)pj=pj1-j(j=0,1;0<p<1,q=1-p),pj=0 (その他)

(解)GXj(z)=q+pz,故に,G(z)=(q+pz)kkjjk-jj,sこで確率分布はPjkjjk-j=b(x;k,p)(2項分布)

(ⅱ)pj=exp(-λ)λj/j! (j=0,1,2,..)のポアソン分布(パラメータλ>0) 

(解)GXj(z)=exp(-λ)Σj=0λjj/j!=exp(-λ)exp(λz)=exp{-λ(1-z)},故にG(z)=exp{-kλ(1-z)}=exp(-kλ)Σj=0(kλ)jj/j!です。

 

 そこで,Xの確率分布はPj=exp(-kλ)(kλ)j/j!(パラメータkλのポアソン分布)になります。

(ⅲ)pj=pqj (j=0,1,2,..;p>0,q=1-p>0) (幾何分布) 

(解)GXj(z)=pΣj=0jj=p/(1-qz),故にG(z)=pk(1-qz)-k=Σj=0{(k-1+j)..(k+1)k/j!}pkjj,

 

 そこで,Xの確率分布はPjk-1+jkkjです。

[例8-4]:(複合分布){Xj,1≦j≦N}を共通な確率分布:pi;i=0,1,2,..,および確率母関数:GX(z)を持つ独立離散確率変数とする。

 

 Nは全てのXjと独立な離散確率変数で確率分布:φ(n),n=1,2,..,と確率母関数GN(z)を持つとき,Y≡X1+X2+..+XNの確率母関数:GY(z),およびE[Y],Var[Y]を求める。

(解)p(k,n)≡P(Y=k,N=n)と置けば,p(k|n)=p(k,n)/φ(n),or p(k,n)=p(k|n)φ(n)です。故にP(Y=k)=Σn=1p(k,n)=Σn=1p(k|n)φ(n)です。

 ところが,p(k|n)=P(X1+X2+..+Xn=k)なので,P(Y=k)=Σn=1P(X1+X2+..+Xn=k)φ(n)です。

それ故,GY(z)=E[zY]=ΣkkP(Y=k)=Σn=1ΣkkP(X1+X2+..+Xn=k)φ(n)=Σn=1E[zX1+X2+..Xn]φ(n)です。

 

ところが,{Xj,1≦j≦n}は独立確率分布なので,(注7)で述べたようにE[zX1+X2+..Xn]={E[zX1]}n={GX(z)}nです。

 したがって,結局,GY(z)=E[zY]=E[zX1+X2+..XN]=Σn=1{GX(z)}nφ(n)=GN[GX(z)]なる合成確率母関数が得られます。

 これから,GY'(z)=dGY/dz=(dGY/dGx)(dGX/dz)=GN'[GX(z)]GX'(z)です。

 

 GX(1)=GN(1)=1,GN'(1)=E[N],GX'(1)=E[X]ですから,E[Y]=GY'(1)=GN'(1)GX'(1)=E[N]E[X]が得られます。

 さらに,GY"(z)=GN"[GX(z)]{GX'(z)}2+GN'[GX(z)]GX"(z)より,GY"(1)=GN"(1){GX'(1)}2+GN'(1)GX"(1)です。

そして,Var[Y]=GY"(1)+GY'(1)-{GY'(1)}2です。

 

右辺=GN"(1){GX'(1)}2+GN'(1)GX"(1)-{GN'(1)GX'(1)}2=[GN"(1)+GN'(1)-{GN'(1)}2]{GX'(1)}2+GN'(1)[GX"(1)+GX'(1)]-{GX'(1)}2]です。

 

以上から,Var[Y]=Var[N]{E[X]}2+E[N]Var[X]を得ます。

ここでまた一休みします。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

  

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (2) | トラックバック (0)

2010年2月19日 (金)

確率と分布関数(4)(特殊分布(連続))」

 確率と分布関数の続きです。重要な連続確率分布の例を考えます。

[定義6-1]:一様分布(uniform distribution)

 

 確率密度(p.d,f)がf(x)=1/(b-a)(a≦x≦b),f(x)=0 (その他),分布関数(d.f)F(x)=∫-∞xf(x)dxがF(x)=0 (x<a),F(x)=(x-a)/(b-a) (a≦x≦b),F(x)=1 (x>b)で与えられる確率分布を一様分布という。

[例6-2]:確率変数X,Yのj.p.d.fがf(x,y)=1 (0≦x≦1,0≦y≦1),f(x,y)=0 (それ以外)であるとき,

同時分布関数(m.d.f)はF(x,y)=∫-∞xdu∫-∞ydvf(u,v)より,F(x,y)=1 (x≧1,y≧1),F(x,y)=y (x≧1,0≦y≦1),F(x,y)=x (0≦x≦1,y≧1),F(x,y)=xy (0≦x≦1,0≦y≦1), F(x,y)=0 (その他)です。

 周辺分布関数はFX(x)=limy→∞F(x,y),FY(y)=limx→∞F(x,y)より,FX(x)=1(x≧1),FX(x)=x (0≦x≦1),FX(x)=0 (その他),およびFY(y)=1(y≧1),FY (y)=y (0≦x≦1),FY(y)=0 (その他)です。

[定義6-3]:正規分布(normal distribution),またはガウス分布(Gaussian distribution)

確率密度(p.d,f)がf(x)=(2π)-1/2σ-1exp{-(x-μ)2/(2σ2)}(-∞<x<∞,σ>0 とμは定数)で,分布関数(d.f)がF(x)=(2π)-1/2σ-1-∞xexp{(y-μ)2/(2σ2)}dyで与えられる連続確率分布を正規分布といい,N[μ,σ2]で表わす。

特にμ=0,σ2=1の正規分布:N[0,1]を標準正規分布という。これのp.d,f:φ(u)はφ(u)=(2π)-1/2exp(-u2/2)である。

確率変数Xが分布N[μ,σ2]を持つなら,U≡(X-μ)/σは分布N[0,1]を持ちます。

[定理6-4]:x>0 のとき,標準正規分布関数:Φ(x)=(2π)-1/2-∞xexp(-u2/2)duは(2π)-1/2(1/x-1/x3)exp(-x2/2)<1-Φ(x)<(2π)-1/2(1/x)exp(-x2/2)なる不等式を満たす。

(証明) (d/dx){(1/x)exp(-x2/2)}=-(1+1/x2)exp(-x2/2)なので(1/x)exp(-x2/2)=∫x(1+1/u2)exp(-u2/2)du>∫xexp(-u2/2)duです。

また,(d/dx){(1/x3)exp(-x2/2)}=-(1/x2+4/x4)exp(-x2/2)より,(d/dx){(1/x-1/x3)exp(-x2/2)}=-(1-4/x4)exp(-x2/2)です。

 

故に,(1/x-1/x3)exp(-x2/2)=∫x(1-4/u4)exp(-u2/2)du<∫xexp(-u2/2)duです。

(2π)-1/2xexp(-u2/2)du=1-Φ(x)ですから,(2π)-1/2(1/x-1/x3)exp(-x2/2)<1-Φ(x)<(2π)-1/2(1/x)exp(-x2/2)が得られます。(証明終わり)

この定理からxが大きいときには,1-Φ(x)≒(2π)-1/2(1/x)exp(-x2/2)と近似できることがわかります。

正規分布N[μ,σ2]では,p.d.fが偶関数なのでP(-u0≦U≦u0)=2P(0≦U≦u0)(u0>0)です。この式でu0→∞とすると,P(U>0)=P(U≧0)=1/2を得ます。

 

一方,総確率が1であるという性質からP(U≦u)=1-P(U>u)なので,P(U≦0)=1/2も得られます。

そこで,P(U≦u0)=P(U≦0)+P(0≦U≦u0)=1/2+P(0≦U≦u0),すなわちP(0≦U≦u0)=P(U≦u0)-1/2です。

標準正規分布N[0,1]を持つ確率変数(random variable):Uに対してはΦ(u0)=P(U≦u0)ですから,P(0≦U≦u0)=(2π)-1/20u0 exp(-u2/2)du=Φ(u0)-1/2です。これの近似値を表示したものは正規分布表として種々の資料に載っています。 

それによると,特にP(-1≦U≦1)≒0.683,P(-2≦U≦2)≒0.954,P(-3≦U≦3)≒0.997であることがわかります。

[定義6-5]:関数:erf(x)≡(2π)-1/20x exp(-v2)dvを誤差関数(error function)という。

erf(x)=(2π)-1/20x exp(-v2)dv=(2π)-1/22-1/20√2xexp(-u2/2)du=2{Φ(21/2x)-1/2}=2Φ(21/2x)-1です。

[定義6-6]:指数分布(exponential distribution)

確率変数:Xのp.d,fがf(x)=λexp(-λx)(0≦x<∞),f(x)=0 (x≦0)で,d.fF(x)=∫-∞xf(t)dtがF(x)=1-exp(-λx)(0≦x<∞),F(x)=0 (x≦0)で与えられるとき,Xはパラメータλの指数分布を持つという。

[定理6-7]:確率変数:Xが指数分布を持つとき,P(X>(x+y)|X>x)=P(X>y)(マルコフ(Markov)性)が成り立つ。

(証明)P(X>(x+y)|X>x)=P(X>(x+y),X>x)/P(X>x)=P(X>(x+y))/P(X>x)=∫x+yλexp(-λt)dt/∫xλexp(-λt)dt=exp{-λ(x+y)}/ exp(-λx)=exp(-λy)=∫yλexp(-λt)dt=P(X>y) (証明終わり)

[定理6-8]:確率変数:Tの分布関数:F(t)=P(T≦t)がP(T>(t+s)|T>s)=P(T>t)を満たすなら,t≧0 においてはある定数λ>0が存在してF(t)=1-exp(-λt)である。

(証明) P(T>(t+s)|T>s)=P(T>t)を分布関数F(t)で表わすせば1-F(t+s)={1-F(t)}{1-F(s)}です。

(t)≡log{1-F(t)}と置けばz(0)=0 でz(t+s)=z(t)+z(s)で 0≦F(t)≦1ですからz(t)≦0 です。t≧0 においてこれを満たす連続関数z(t)はz(t)=-λt(λ=-z(1)>0)だけです。

故にF(t)=1-exp(-λt) (λ>0)が得られます。(証明終わり)

[定理6-9]:確率変数:XがlimΔx→0P(x<X<x+Δx|X>x)/Δx=η(x),P(X>0)=1を満たすなら,Xの分布関数F(x)はF(x)=1-exp{-∫0xη(t)dt} (x>0),F(x)=0 (x≦0)である。

(証明)η(x)=limΔx→0[{F(x+Δx)-F(x)}/Δx]/{1-F(x)}=(dF/dx)/1-F(x)}=-d[log{1-F(x)}/dx,そしてF(0)=1-P(X>0)=0です。

 

 それ故,log{1-F(x)}=-∫0xη(t)dtを得ます。したがって,x>0 のとき,F(x)=1-exp{-∫0xη(t)dt}です。(証明終わり)

 上述の確率変数:Xを部品の寿命と見なすときにはη(x)を故障率関数と呼びます。η(x)=f(x)/{1-F(x)}ですから,Xの分布がパラメータλの指数分布ならη(x)=λ(一定)(x>0)となります。

[例6-10]:Xのp.d,fとしてf(x)=αλxα-1exp(-λxα) (x>0,α>0,λ>0),f(x)=0 (その他)を持つ分布をワイブル分布(Weibull distribution)といいます。

これのd.fはF(x)=∫-∞xf(t)dt=1-exp(-λxα) (x>0),F(x)=0 (x≦0)です。

このワイブル分布では,故障率関数は一般に一定ではなくて,η(x)=f(x)/1-F(x)}=αλxα-1です。

しかし,もしもα=1ならワイブル分布は指数分布に一致しますから,η(x)=λ(一定)です。また,α>1なら故障率η(x)は増加関数で, 0<α<1なら減少関数です。

[定理6-11]:ある事象εの発生がパラメータλのポアソン(Poisson)分布(離散分布の1つ)を持つとき,発生間隔Tは同じパラメータλの指数分布を持つ。

 

 (これは単位時間当たりの平均発生個数がλのポアソン過程です。)

(証明)前記事でのポアソン過程の考察において,時刻 0≦t1<t2に対し(t1,t2)内にj個が発生する事象をNj(t1,t2)と定義しました。

 

 このとき,時間間隔(0,t)内にj個が発生する確率はPj(t)=P[Nj(0,t)]であってPj(t)=(λt)jexp(-λt)/j! (j=0,1,2,..)とポアソン分布で与えられることを見ました。

そこで,発生間隔Tがxより大きい確率はP(T>x)=P(N0(0,x))=P0(x)=exp(-λx)となります。

 

したがって,発生間隔:Tのp.d.fをf(x)とすると,d.fがF(x)=P(T≦x)=1-P(T>x)=1-exp(-λx)なのでf(x)=dF/dx=λexp(―λx)です。(証明終わり)

[定義6-12]:ガンマ分布:γ(x;α,λ) 

 確率変数Xのp.d,fがf(x)={1/Γ(α)}λαα-1exp(-λx) (x>0,α>0,λ>0),f(x)=0 (その他)で与えられるとき,Xはパラメータ(α,λ)のガンマ分布を持つといい, γ(x;α,λ)で表わす。

ここに,Γ(α)はEulerのガンマ関数でΓ(α)≡∫0exp(-t)tα-1dt(α>0)で定義されます。

ガンマ分布はα=n/2,λ=1/2のときは後述する自由度nのχ2分布(カイ二乗分布)のp.d,fになります。

[定理6-13]:X1,X2,..,Xαが互いに独立な確率変数であり,これらが共通のパラメータλの指数分布を持つなら,Σk=1αk=X1+X2+..+Xαはパラメータ(α,λ)のガンマ分布を持つ。

(証明) まず,α=1のときX1はパラメータλの指数分布を持ちますが,これはパラメータ(1,λ)のガンマ分布です。

 いま,αまで定理が成立するとしてZ≡Σk=1αk+Xα+1と置き,これのp.d.fを求めます。X=Xα+1,Y=Σk=1αkと置くと仮定によってYのp.d.fはfY(y)={1/Γ(α)}λαα-1exp(-λy)です。

 Z=X+Y,T=YとしてZ,Tのj.p.d.fを求めるとX=Z-T,Y=Tかつ|J|=1であり,XとYは独立なのでfZT(z,t)=fX(x)fY(y)=fX(z-t)fY(t)です。

 

 そこで,fZ(z)=∫-∞X(z-t)fY(t)dtです。

これを計算すると,fZ(x)=∫0xλexp{-λ(x―t)}fY(t)dt=∫0x{1/Γ(α)}λα+1α-1exp(-λx)dt={1/Γ(α+1)}λα+1αexp(-λx)を得ます。

以上から,帰納法によって全てのαについて定理の結論の成立することが示されました。(証明終わり)

確率変数Xがガンマ分布を持つとき,そのp.d,fはf(x)={1/Γ(α)}λαα-1exp(-λx) (x>0)です。u=λxと置けば確率変数U=λxのp.d.fはf(u)={1/Γ(α)}uα-1exp(-u) ) (u>0)となります。

[定義6-14]:χ2分布(chi-squared distribution)

 .d.fがf(x)=[1/{2n/2Γ(n/2)}xn/2-1exp(-x/2) (x>0),f(x)=0 (x≦0)で与えられる連続確率分布を自由度nのχ2分布(カイ二乗分布)という。

 これは,先のガンマ分布のp.d,f:f(x)={1/Γ(α)}λαα-1exp(-λx)(x>0),f(x)=0 (x≦0)において,α=n/2,λ=1/2としたものと同じです。つまりγ(x;n/2,1/2)ですね。

[定理6-15]:X1,X2,..,Xnが全て標準正規分布を持つn個の独立確率変数ならば,χ2≡Σj=1nj2=X12+X22+..+Xn2は自由度nのχ2分布を持つ。

(証明)X12のp.d.fをp1(y)と書けば,y>0 のときはy=x2,x=±y1/2,|dx/dy|=1/(2y1/2)を(2π)-1/2exp(-x2/2)に代入してp1(y)=(2π)-1/2-1/2exp(-y/2)(y>0),p1(y)=0 (y≦0)なる陽な表式を得ます。

 

 Γ(1/2)=π1/2によって,これは自由度1のχ2分布です。

 また,X12+X22のp.d.fをp2(x)と置けばp2(x)=∫-∞1(x-y)p1(y)dy=(2π)-10x(x-y)-1/2exp{-(x-y)/2}y-1/2exp(-y/2)dyです。

 

 すなわち,p2(x)=(2π)-1exp(-x/2)∫0x(xy-y2)-1/2dyです。ところが,∫0x(xy-y2)-1/2dy=∫0x{x2/4-(y-x)2}-1/2dy=πです。

 

 そこで,p2(x)=2-1exp(-x/2) (x>0),p1(x)=0 (x≦0)を得ますが,Γ(1)=1によりこれは自由度2のχ2分布です。

 次に,(ⅰ)n=2kのとき,m=1,2,..,kについて,p2m(x)=[1/{2mΓ(m)}xm-1exp(-x/2) (x>0)が全て成立すると仮定します。

 

 すると,p2k+2(x)=∫-∞2(x-y)p2k(y)dy=[1/{2k+1Γ(k)}exp(-x/2)∫0xk-1dy=[1/{2k+1Γ(k+1)}xkexp(-x/2)(x>0)を得ます。

 

 m=(k+1)でもp2m(x)=[1/{2mΓ(m)}xm-1exp(-x/2) (x>0)が示されたわけです。

 一方,(ⅱ)n=2k-1のときにも,m=1,2,..,kについてp2m-1(x)=[1/{2m-1/2Γ(m-1/2)}xm-3/2exp(-x/2) (x>0)が成立すると仮定します。

 

 すると,p2k+1(x)=∫-∞2(x-y)p2k-1(y)dy=[1/{2k+1/2Γ(k-1/2)}exp(-x/2)∫0xk-3/2dy=[1/{2k+1/2Γ(k+1/2)}xk-1/2exp(-x/2)(x>0)を得ます。やはり,帰納法の仮定からm=(k+1)でも同じ式の成立することが導かれます。(証明終わり)

上記の証明で用いた式pn(x)=[1/{2n/2Γ(n/2)}xn/2-1exp(-x/2) (x>0)についてP(χ2>χα,n2)=∫χα,n^2∞pn(x)dx=αを満たすχα,n2の値の数表をχ2分布表といいます。

[定理6-15の系]:X1,X2,..,Xnが全て正規分布N[μ,σ2]を持つn個の独立確率変数ならばΣj=1n{(Xj-μ)22}は自由度nのχ2分布を持つ。(証明は略:Uj≡(Xj-μ)/σがN[0,1]に従うので自明)

[定義6-16]:t分布,またはStudent分布(W.Goset(1908)による)

 .d.fがf(t)=[Γ((n+1)/2)/{(nπ)1/2Γ(n/2)}](1+t2/n)-(n+1)/2 (-∞<t<∞)の確率分布を自由度nのt分布という。

[定理6-17]:確率変数XとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならばT≡X/(Y/n)1/2は自由度nのt分布を持つ。

(証明)Z≡(Y/n)1/2と置くとfY(y)=[1/{2n/2Γ(n/2)}]yn/2-1exp(-y/2) (y>0)でz=(y/n)1/2よりy=nz2,dy/dz=2nzなのでZのp.d.fはfZ(z)=[nn/2/{2n/2-1Γ(n/2)}]zn-1exp(-nz2/2) (z>0)となります。

さらにT≡X/ZよりW≡Zと置けば(X,Z)=(WT,W)でJ≡∂(x,z)/∂(t,w)=wです。

XZ(x,z)=f(x)f(z)=(2π)-1/2exp(-x2/2)[nn/2/{2n/2-1Γ(n/2)}]zn-1exp(-nz2/2) (-∞<x<∞,z>0)ですからfTW(t,w)=(2π)-1/2exp{-(tw)2/2}[nn/2/{2n/2-1Γ(n/2)}]wnexp(-nw2/2) (-∞<t<∞,w>0)を得ます。

それ故,fT(t)=∫0 (2π)-1/2exp{-(tw)2/2}[nn/2/{2n/2-1Γ(n/2)}]wnexp(-nw2/2)dw=[1/{2(n-1)/2π1/2Γ(n/2)}]∫0(n1/2w)nexp{-w2(n+t2)/2}dwです。

u=w2(n+t2)/2と置換すればdu=w(n+t2)dwでw=(2u)1/2(n+t2)-1/2です。dw=(2u)-1/2(n+t2)-1/2duですね。

 

そこで,fT(t)=[1/(nπ)1/2Γ(n/2)]](1+t2/n)-(n+1)/20(n+1)/2-1exp(-u)du=[Γ((n+1)/2)/{(nπ)1/2Γ(n/2)}](1+t2/n)-(n+1)/2 (-∞<t<∞)を得ます。(証明終わり)

t分布のp.d.f:fT(t)=[Γ((n+1)/2)/{(nπ)1/2Γ(n/2)}](1+t2/n)-(n+1)/2はオイラーのベータ関数Β(p,q)≡Γ(p)Γ(q)/Γ(p+q)を用いると,fT (t)=n-1/2Β-1(1/2,n/2)(1+t2/n)-(n+1)/2と表わすこともできます。

T(-t)=fT(t)(偶関数)ですから,分布関数ではP(T>-t)=P(T≦t)ですが,P(T>-t)=1-P(T≦-t)ですからP(T≦-t)=1-P(T≦t)です。

 

そこで,P(|T|≦t)=P(―t≦T≦t)=P(T≦t)-P(T≦-t)=2P(T≦t)-1です。

通常,資料に載っているt分布表では自由度nとα=P(|T|>t*)を与えたときのt*値が与えられています。

[定義6-18]:ベータ分布:β(x;p,q)

 .fがF(x)=Β-1(p,q)∫0xp-1(1-u)q-1du (0<x<1,p,q>0),F(x)=0 (その他)であるような確率分布をベータ分布といいβ(x;p,q)で表わす。

Β(p,q)はオイラー(Euler)のベータ関数:Β(p,q)≡Γ(p)Γ(q)/Γ(p+q)ですが,これはΒ(p,q)=∫01p-1(1-u)q-1du (p,q>0)と表わすこともできます。(証明略)

[定理6-19]:独立な確率変数X,Yがそれぞれp.d.fとしてパラメータ(p,λ),(q,λ)のベータ分布を持つならZ≡X/(X+Y)はベータ分布β(z;p,q)を持つ。(証明略)

[定義6-20]:F分布(スネデカー(Snedecor,G.W)の分布)

確率変数Xのp.d.fがfU(x)=Β-1(m/2,n/2)(m/n)m/2-1m/2-1[1+(m/n)x]-(m+n)/2 (x>0),fU(x)=0 (x≦0)の場合,この分布を自由度(m,n)のF分布という。

[定理6-21]:確率変数X,Yがそれぞれ自由度m,nのχ2分布を持てばU≡(X/m)/(Y/n)は自由度(m,n)のF分布を持つ。

(証明)u=(x/m)/(y/n),v=yと置けば(x,y)=(muv/n,v)であり,∂(x,y)/∂(u,v)=mv/nです。

 

 また,f(x)=[1/{2m/2Γ(m/2)}]xm/2-1exp(-x/2) (x>0),fY(y)=[1/{2n/2Γ(n/2)}]yn/2-1exp(-y/2) (y>0)でx>0,y>0 はv>0 に対応します。

UVの同時確率密度はfV(u,v)=f(x)fY(y)|∂(x,y)/∂(u,v)|=[1/{2(m+n)/2Γ(m/2)Γ(n/2)}](m/n)m/2-1(uv)m/2-1n/2-1exp{-muv/(2n)-v/2}(mv/n) (v>0)です。

故に,f(u)=[(m/n)m/2/{2(m+n)/2Γ(m/2)Γ(n/2)}um/2-10(m+n)/2-1exp{-(1+mu/n)v/2}]dvです。

t=(1+mu/n)v/2と置けば,dt=(1+mu/n)dv/2です。以下略..でfU(u)=Β-1(m/2,n/2)(m/n)m/2-1m/2-1[1+(m/n)u]-(m+n)/2 (u>0)を得ます。(証明終わり)

※F分布はベータ分布β(x;p,q)=Β-1(p,q)xp-1(1-x)q-1においてp=m/2,q=n/2と置いたβ(x;m/2,n/2)=Β-1(m/2,n/2)xm/n-1(1-x)n/2-1 (x>0)で,u=(n/m)x/(1-x) or x=(m/n)u/{1+(m/n)u}と変換したものに一致します。

また,自由度が1のχ2分布は標準正規分布[0,1]ですから,U=(X/1)/(Y/n)は,[定理6-17]でXとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならT≡X/(Y/n)1/2がt分布を持つとしたときのT2に一致しています。

 

つまり,T2=(X/1)/(Y/n)ですが,今の定理からこれは自由度(1,n)のF分布を持つことがわかります。※

[定理6-22]:確率変数:Uが自由度(m,n)のF分布を持つなら変数:1/Uは自由度(n,m)のF分布を持つ。

(証明)Uのp.d.fがfU(u)=Β-1(m/2,n/2)(m/n)m/2-1m/2-1[1+(m/n)u]-(m+n)/2 (u>0)のとき,V≡1/Uとおくとv=1/uよりu=1/vでdu=dv/v2です。

 

 そこで,fV(v)=fU(1/v)/v2=Β-1(n/2,m/2)(m/n)m/2-1-m/2-1[1+m/(nv)]-(m+n)/2=Β-1(n/2,m/2)(n/m)m/2-1n/2-1[1+(n/m)v]-(n+m)/2 (v>0)を得ます。

 これは自由度(n,m)のF分布のp.d.fです。(証明終わり)

[定理6-22の系]:X,およびYがそれぞれ自由度(m,n),および(n,m)のF分布を持つとき,任意のx>0 に対してP(X≦x)=1-P(Y<(1/x))が成り立つ。

(証明)Yは自由度(n,m)のF分布を持つので1/Yは自由度(m,n)のF分布を持ちます。故にP((1/Y)>x)=P(X>x)です。したがってP(X≦x) =1-P(X>x)=1-P(Y<(1/x))です。(証明終わり)

※F分布:fU(u)=Β-1(m/2,n/2)(m/n)m/2-1m/2-1[1+(m/n)u]-(m+n)/2 (u>0)において,特にm=1,u=t2と置けばdu/dt=2tよりTのp.d.fはf(t)=2Β-1(1/2,n/2)n1/2(1+t2/n)-(n+1)/2とt分布になります。

 

 ただし,u=t2>0 にはt=u1/2>0 とt=-u1/2<0 の2つのtが対応するため,t>0 の分布とすれば余分な因子2があります。※

[定理6-23]:自由度nのt分布のp.d.fをfn(x)と表わすと,nが大きい極限ではlimn→∞n(x)=(2π)-1/2exp(-x2/2)(=標準正規分布N[0,1])となり,t分布は正規分布N[0,1]に収束する。(これは中心極限定理の一例です。)

(証明)fn(x)=[Γ((n+1)/2)/{(nπ)1/2Γ(n/2)}](1+x2/n)-(n+1)/2=π-1/2[Γ((n+1)/2)/{n1/2Γ(n/2)}]{(1+x2/n)n/x^2}-(n+1)x^2/(2n)→π-1/2exp(-x2/2) as n→∞は明らかです。(証明終わり)

なんかこう教科書を読んで定義,定理,証明とやっていると,行間を埋めながらもブログというより全部書き写しているという感があって大丈夫かな?とも考えます。

しかし,(応用)数学の教科書というのは歴史的に得られた既知の知見の羅列(ある意味ではパクリの連続)であって,それを公開とはいえ個人の日記でかいつまんで紹介しているだけのことですからこれもアリかなと思います。

今日はここで終わります。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

PS:藤田まことさんが死んだから言うわけじゃないが,地球の大多数の人にとっては明日もまたほぼ確実に太陽が昇って日常が始まるのでしょうが,ある人々にとっては明日はもう太陽は昇らないかも知れません。

 

 少なくともある程度の未来への展望が開けていて明日もまた太陽が昇ると信じられるからこそ,精神の矜持が保たれるのだと思います。

 

 これまで続いてきた人生が明日にも突然途絶えるかも知れないという心境であれば,普通人の心境はどうなるのでしょう。もしも病気か寿命でわずかしかない余命をハッキリ宣告されたとしたら,私だったらどういう心境になるでしょうか?

 

 私事では,不摂生な私への脅かしや冗談もあるのでしょうが,これまで病院へ行って持病の診察を受けるといつ死んでもおかしくない体であると言われたり,入院など医者の勧めを断るとその旨を書いたカルテにサインを要求されたりもしてきています。

 

 現実には3年前の手術のときから,前記のように明日の太陽が昇るかどうか?が結構気になって,あるかもわからない将来についてあくせく考えることが少なくなり,今日明日の1日や2日の取るに足りない程度のことなら真面目に悩むことも比較的少なくなりました。

 

 生き物としては生命力の喪失だし悲しいことです。無常ですね。。

  

 藤田まことさんに。。合掌 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (5) | トラックバック (0)

2010年2月16日 (火)

確率と分布関数(3)(確率変数の関数,特殊分布(離散))

 確率と分布関数の続きです。

 Xを(Ω,,P)の確率変数とするとき,

∀y∈Rに対して{ω∈Ω|g(X(ω))≦y}∈が成り立つならば,

Y≡g(X)もまた確率変数です。

 

この確率変数Xの関数Yの確率変数としての分布を考えます。

[例4-1]:X,Y=g(X)の分布関数,および確率密度関数を,

それぞれFX(X),FY(Y),およびfX(X),fY(Y)とします。

 

 Xの分布:FX(X),fX(X)は既知とします。

(ⅰ)g(x)=ax+b (a≠0)の場合

分布関数はFY(Y)=P(Y≦y)=P(g(X)≦y)

=P(aX+b≦y)です。

そこで,これは

 

a>0 ならFY(Y)=P(X≦(y-b)/a)=FX((y-b)/a),

a<0 ならFY(Y)=P(X≧(y-b)/a)=1-FX((y-b)/a)

 

です。

 密度関数は,fY(Y)=dFY/dYより,

 a>0 ならfY(Y)=(1/a)fX((y-b)/a),

 a<0ならfY(Y)=-(1/a)fX((y-b)/a) です。

(ⅱ)g(x)=x2,つまりY=X2の場合

 

Y(Y)=P(X2≦y)より,分布関数は, 

y≧0 なら,

Y(Y)=P(-y1/2≦X2≦y1/2)=FX(y1/2)-Fx(-y1/2), 

y<0 なら,FY(Y)=0

 

となります。

そこで,密度関数は,

 

y≧0 ならfY(Y)=dFY/dY=(1/2){fX(y1/2)+fX(-y1/2)},

y<0 ならfY(Y)=0 です。

[定理4-2]:gが連続関数で狭義単調関数,かつ微分可能なら,

確率変数Y=g(X)の確率密度関数(p.d.f.):fY(y)は,

Y(y)=fX(g-1(y))|dg-1(y)/dy|で与えられる。

(y=g(x)が狭義単調関数というのは,逆関数の値x=g-1(y)が確定しない停留点が存在しないという意味です。) (証明略)

(注);先の例のg(x)=x2,つまりY=X2の場合:

gは狭義単調関数ではないので,狭義単調な区間への場合分けが必要でした。※

[例4-3]:Xのp.d.f.fX(x)が,

 0<x<∞に対してはfX(x)=[1/{2n/2Γ(n/2)}xn/2-1exp(-x/2),

それ以外のxに対してはfX(x)=0 ,つまり,自由度nのχ2分布(カイ二乗分布)の場合,

 

Y=X1/2のp.d.fを求めます。

y=g(x)=x1/2の逆関数はx=g-1(y)=y2です。

そしてdg-1(y)/dy=dx/dy=2yです。

これをfy(y)=fx(g-1(y))|dg-1(y)/dy|に代入すると,

 

0<y<∞に対してfY(y)=[2/{2n/2Γ(n/2)}yn-1exp(-y2/2),

それ以外のyに対してfY(y)=0  です。

[例4-4]:Xのp/d.f.がfX(x)=(2π)-1/2exp(-x2/2) ])(-∞<x<∞) (標準正規分布:N[0,1])の場合を考えます。

(ⅰ)Y=X2のp.d.f.を求める。

y>0 のときy=g(x)=x2とおけば,

 

xの区間(-∞,0)に対応するものはx=g-1(y)=-y1/2で,

dx/dy=-(1/2)y-1/2,

 

xの区間(0,∞)に対応するものはx=g-1(y)=y1/2で,

dx/dy=(1/2)y-1/2 です。

これらは共にy~y+dyに対応する密度関数に寄与するため,両者の寄与の和を取れば,

 

Y(y)=(2π)-1/2{|-(1/2)y-1/2|exp(-y/2)+|(1/2)y-1/2|exp(-y/2)}=(2π)-1/2-1/2exp(-y/2)となります。

 

y<0 のときはfY(y)=0 です。

また,y=0 のときは,分布関数がFY(0)=P(X2≦0)=0,

 

そして,Δy>0 ならFY(Δy)=FY(Δy)=FX((Δy)1/2)-FX(-(Δy)1/2)=(2π)-1/2exp(-Δy/2)(Δy)1/2 ~(2π)-1/2(Δy)1/2

です。

そこで,FY(y)のy=0 における右導関数が存在して,

それは[dFY/dy]y=+0=limΔy→+0{(2π)-1/2(Δy)-1/2}Δy=+0→ ∞

です。一方,左導関数はゼロです。

結局,fY(y)=(2π)-1/2-1/2exp(-y/2)(y>0),

Y(y)=0 (y<0)です。

 

y=0 では,分布関数はゼロで有限ですが密度関数は定義できません。

 

これは後述する自由度が1のχ2分布です。

(ⅱ)Y=|X|のp.d.f.

y≧0 のとき,y=g(x)=|x|とおけば,

xの区間(-∞,0)に対応するものは

x=g-1(y)=-yで,dx/dy=-1,

 

xの区間[0,∞)に対応するものは

x=g-1(y)=yで,dx/dy=1 です。

y ~y+dyに対応する密度関数への寄与の和として,

Y(y)=2(2π)-1/2exp(-y2/2)を得ます。

y<0 のときはfY(y)=0 です。

[定理4-6]:同時確率密度関数(j.p.d.f.)としてf(x1,x2,..,xn)を持つn個の連続確率変数X1,X2,..,Xn.の関数:Y1,Y2,..,Yn

;Yj=gj(X1,X2,..,Xn)(j=1,2,..,n)

 のj.p.d.f.は,

Y1..Yn (y1,..,yn)=f(g1-1(y1,..,yn),..,gn-1(y1,..,yn))|J|によって与えられる。

 ここでJは次式で定義されるJacobian(ヤコービアン):J≡det{∂(g1-1,g2-1,..,gn-1)/∂(y1,y2,..,yn)}である。

(注):定理はn個の連続確率変数X1,X2,..,Xnのr≦n個の関数Y1,Y2,..,Yr;Yj=gj(X1,X2,..,Xn)(j=1,2,..,r)のr=nの場合のみに対するものです。

 

 しかし,もしもr<nに対してのj.p.d.f.を求めたい場合には残りの(n-r)個の変数としてYr+1=Xr+1,..Yn=Xnを加えてn個の変数にすれば上記の定理を使えます。

 すなわち,密度関数はf(x1,x2,..,xn)dx1dx2..dxn=f(x1,x2,..,xn){∂(x1,x2,..,xn)/∂(y1,y2-1,..,yn)}dy2..dyn=fY1..Yn(y1,..,yn)dy1dy2..dynを満たします。

r<nでyr+1=xr+1,..yn=xnなら,

 

f(x1,x2,..,xn)dx1dx2..dxn=f(x1,x2,..,xn){∂(x1,x2,..,xn)/∂(y1,y2-1,..,yn)}dy1dy2..dyrdxr+1..dxnより,

 

f(x1,x2,..,xn)dx1dx2..dxr=f(x1,x2,..,xn){∂(x1,x2,..,xn)/∂(y1,y2,..,yn)}dy1dy2..dyr=fY1..Yr(y1,..,yr)dy1dy2..dyr です。

このとき,det{∂(x1,x2,..,xn)/∂(y1,y2,..,yn)}

=det{∂(x1,x2,..,xr)/∂(y1,y2,..,yr)}となります。

 

(注終わり)※

[例4-7]:Xのpd.f.が.偶関数fX(x)のとき,Y=aX2(a>0)のp.d.f.fY(y)を求めます。

 

 まず,∀x∈Rについてy=ax2≧0 なので,

 y<0のときfY(y)=0です。

そして,y>0 のとき,

X(x)=yとなるxはx=±(y/a)1/2,dx/dy=±(1/2)(ay)-1/2 (複号同順)です。

1=-(y/a)1/2,x2=(y/a)1/2とおけば,

dx1=-(ay)-1/2dy,dx2=(ay)-1/2dyより,

 

Y(y)dy=fX(-(y/a)1/2)dx1+fX((y/a)1/2)dx2=(ay)-1/2{fX(-(y/a)1/2)+fX((y/a)1/2)}dyを得ます。

ここではfX(x)が偶関数なのでfY(y)=2(ay)-1/2{fX((y/a)1/2)}となります。

[例4-8]:確率変数:X,Yのj.p.d.f.が,

 f(x,y)=1 (0<x<1,0<y<1),f(x,y)=0 (それ以外)のとき,

 Z=X+Yのp.d.f.fZ(z)を求めます。

 そのために,まずZ=X+Y,T=Yとおいて,

 ZとTのj.p.d.f.fZT(z,t)を求めます。

 z=x+y,t=yと置けば,x=z-t,y=tです。

 

Jacobianは|J|=det{∂(x,y)/∂(z,t)}=1ですから,

 zT(z,t)=f(z-t,t)です。

 

 そこで,fZT(z,t)=1 (0<t<1,0<z-t<1),

 fzT(z,t)=0 (それ以外)です。

そこで,fZ(z)=∫-∞ZT(z,t)dtにより,周辺分布関数としてfZ(z)を得ます。

結局,z≦0,またはz≧2ならfZ(z)=0,

 0≦z≦1ならfZ(z)=∫0zdt=zです。

 

また,1≦z≦2ならfZ(z)=∫z-11dt=2-zです。

さて,よく使われる実用的な特殊確率分布を考察します。

まず,代表的な離散分布を挙げます。

[定義5-1]:超幾何分布(hypergeometric distribution)

 px=P(X=x)=(kxN-kn-x)/(Nn)(x=0,1,2,..,min(k,n))なる式で与えられる確率分布を超幾何分布といい,H(x,n,k,N)で表わす。

これは,例えば中にk個の赤球と(N-k)個の白球の合計N個の球が入っている1つの壷からn個の球を取り出すとき,その中に含まれる赤球の個数を表わす確率変数をXとすれば,X=xである確率pxが従う確率分布です。

[定理5-2]:超幾何分布:H(x,n,k,N)=(kxN-kn-x)/(Nn)においてp≡k/Nが一定の要素(例えばN個の製品の中にk個の不良品がある不良品率:pが一定)では,N→ ∞とすればH(x,n,k,N) → nxx(1-p)n-x (2項分布)となる。

(証明) H(x,n,k,N)=[k!/{x!(k-x)!}][(N-k)!/{(n-x)!(N-k-n+x)![n!(N-n)!/N!]=nx[k(k-1)..(k-x+1)][(N-k)(N-k-1)..(N-k-n+x+1)]/[N(N-1)..(N-n+1)]です。

右辺はnx[p(p-1/N)..(p-(x-1)/N)][(1-p)(1-p-1/N)..(1-p-(n-x+1)/N)/[(1-1/N)..(1-(n-1)/N)] → nxx(1-p)n-x as N → ∞です。(証明終わり)

※ラプラス(Laplace)の近似式:ラプラスによれば離散的な2項分布(以下参照)はΣx=ab nxx(1-p)n-x ≒(2π)-1/2∫exp(-y2/2)dyと連続的な正規分布で近似できます。

ただし右辺のyの積分区間は,(a-np-1/2)/{np(1-p)}1/2≦y≦(b-np+1/2)/{np(1-p)}1/2で与えられます。※

[定義5-3]:2項分布(binomal distribution)

 

 確率変数X'の取り得る値が 0,または 1のみであるとき,p=P(X'=1),q=P(X'=0)=1-pとする。

 

 分布関数はF(x)=0 (x<0),q (0<x<1),1 (x≧1)である。これをベルヌーイ(Beronoulli)分布という。

 例えば硬貨を投げて裏が出ると0,表が出ると1を対応させる関数として上述の確率変数X'を得る。このように硬貨をn回投げるようなゲームの試行をベルヌーイ試行,または独立試行という。

正確なベルヌ-イ試行は次の3つの条件を持つ試行と定義される。

(1)  各試行の結果として排反事象T,Hのどちらか1つが起きる。

(2)  各試行の結果は他のそれと独立である。

(3)  各試行でHが起こる確率pは試行ごとに変わらない。

この試行列の標本空間Ωの元:ωω=(ω12,..,ωn);ωj=H or T (j=1,2,..,n)で表現される。

このnベルヌーイ試行でHが出る回数をXと表わせば,px≡P(X=x)=nxxn-x (x=0,1,2,..,n;q=1-p)である。これを2項分布といいb(x,n,p)と書く。

これは,確率変数X=X1'+X2'+..Xn'の分布になっている。

[定理5-4]:np=λ(一定)の下でn→ ∞(p→ 0)とすれば2項分布b(x,n,p)はP(x;λ)=λxexp(-λ)/x! (=ポアソン(Poisson)分布)に近づく。

(証明) b(x,n,p)=nxxn-x=n(n-1)..(nーx+1)(λ/n)x(1-λ/n)n-x/x!=λx(1-1/n)..{1-(x-1)/n}(1-λ/n)n(1-λ/n)-x/x!→λxexp(-λ)/x!(n→∞)です。(証明終わり)

(注):Σx=0d nxx(1-p)n-x≒exp(-np)Σx=0d(np)x/x!をポアソン近似といいます。

 そこで,ポアソン分布:P(x;λ)はHが出る回数の期待値がλ(=(np)n→∞=一定)の条件下で,Hの出る回数がxである確率を表わすと考えられます。(注終わり)※

[定理5-5]:時刻t=1,2,3,..においてそれぞれ1個の硬貨を投げる。各時刻tで表(H),裏(T)の出る確率をそれぞれp,q(p+q=1)とし,確率変数YtはH,Tに応じて1,-1を取るとする。すなわち,P(Yt=1)=p,P(Yt=-1)=qである。

 このとき,X(j)≡Σt=0jt=と置けばX(0)=0 の下でP(X(j)=n)=j(j+n)/2(j+n)/2(j-n)/2 (-j≦n≦j)が成り立つ。ただし,(j+n)が偶数のnしか実現不可能である。

(証明)このケースでは標本はω=(HHTHHHTHT..)のような形を取ります。X(j) ≡Σt=0jt=nのとき,表の回数をk,裏の回数をlとするとk+l=j,k-l=nです。

そこで,2k=j+n,2l=j-nより(j+n),(j-n)は偶数でk=(j+n)/2,l=(j-n)/2です。そこで,P(X(j)=n)=jkklj(j+n)/2(j+n)/2(j-n)/2を得ます。(証明終わり)

※この種の現象をランダム・ウォーク(酔歩)といいます。

  

 つまり,酔っ払いが原点Oから右に一歩(+1)か左に一歩(-1)のどちらかの蛇行を繰り返してj歩だけ歩いた後,Oから右にn歩の位置にいる確率が上記のP(X(j)=n)です。(2006年9/14のブログ記事「酔歩(ランダム・ウォーク」を参照)※

さて,改めてポアソン分布を次のように定義します。

[定義5-6]:P(X=j)=λjexp(-λ)/j!(j=0,1,2,..)のときXはパラメータλのポアソン分布を持つという。

(注):ポアソン過程によるポアソン分布の導出

 ある事象の発生が時間的にランダムであるとき,一定時間内にそれが発生する個数を考察します。

すなわち,次のような3つの仮定を満たす過程を考察します。これをポアソン過程といいます。

(A1):任意の時間内の発生個数はそれと重ならない時間内の発生個数と独立である。

(A2):微小時間をΔtとするとP({Δt内には発生しない})=1-λΔt+o((Δt)2),P({Δt内に1個発生する})=λΔt+o((Δt)2),P({Δt内に2個以上発生する})=o((Δt)2)である。(λ>0)

(A3):時間間隔(0,t)内にj個が発生する確率をPj(t)で表わすとき,j≧0 の全てのjに関してPj(t)はtに関して微分可能である。

 以上の仮定の下で,Pj(t)=(λt)jexp(-λt)/j! (j=0,1,2,..)が成り立つ

(証明) 0≦t1<t2に対して(t1,t2)内にj個が発生するという事象をNj(t1,t2)で表わします。

 

 積事象を積で表現すれば,N0(0,t+Δt)=N0(0,t)N0(t,t+Δt),j≧1ならNj(0,t+Δt)=Nj(0,t)N0(t,t+Δt)+Nj-1(0,t)N1(t,t+Δt)+Σk=2jj-k(0,t)Nk(t,t+Δt)です。

 そこで,Pj(t)=P[Nj(0,t)]ですから確率としては,P0(t+Δt)=P0(t){1-λΔt+o((Δt)2)},かつPj(t+Δt)=Pj(t){1-λΔt+o(((Δt)2))+Pj-1(t){λΔt+o((Δt)2)}+o((Δt)2)(j≧1)です。

 Δt→ 0 とするとdP0/dt=-λP0(t),dPj/dt=-λPj(t)+λPj-1(t))(j≧1)なる連立1階常微分方程式系を得ます。

 

 これらを初期条件P0(0)=1,Pj(0)=0(j≧1)の下で解けばPj(t)が得られるわけです。

解くべき方程式は定係数の線形方程式で係数が二重対角の三角行列の簡単なものです。計算の詳細は省いて結果だけ書くとPj(t)=(λt)jexp(-λt)/j! !(j=0,1,2,..)です。(証明終わり)(注終わり)※

[定義5-7]:幾何分布(geometrical distribution)

 無限回のベルヌーイ試行列において初めて裏(T)が出るまでの試行回数(最後の裏の出た回も含める)をXと表わせばj≧1に対してpj≡P(X=j)=pj-1q (p=P(H),q=1-p=P(T))が成り立つ。

この離散的確率分布{pj;j=1,2,..}を幾何分布,またはパスカル(Pascal)分布という。

[定理5-8]:幾何分布{pj;j≧1}を持つ確率変数Xは関係式:P(X=n+j|X>n)=pj (j≧1) (=マルコフ(Markov)性)を満たす。

(証明)P(X=n+j|X>n)=P(X=n+jかつX>n)/P(X>n)=P(X=n+j)/P(X>n)=pn+j/(Σk=n+1k)=pn+j-1q/(Σk=n+1k-1q)=pj-1q=pjです。(証明終わり)

[定理5-9]:確率分布pj≡P(X=j)が等式:pj=P(X=n+j|X>n) (n,j=1,2,..)を満たすなら,pj=pj-1q (j=1,2,..,q=1-p)である。

(証明)pj=pj+n/(Σk=n+1k)においてn=1と置けばpj=pj+1/(Σk=2k)です。故にpj+1/pj=Σk=2k=1-p1です。

 

 そこで,p≡1-p1と置くとpj+1=ppj(等比数列)です。

 

 したがってpj=pj-11=(1-p)pj-1=pj-1q (j=1,2,..,q=1-p)を得ます。(証明終わり)

今日はここで終わります。

 

次回は特殊な連続確率分布の例に入ります。(つづく)

参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)

 

PS:カナダの冬季オリンピックスピード・スケート500m。。地元のジェレミー・ウォザースプーンは泣いていました。残念でした。

 

 かつてのアメリカのダン・ジャンセン(最後1000mでは勝ったが。。)を思い出してしまいました。。。

  

 ノルディック複合で当時無敵だった荻原健司も五輪の個人では勝てなかったなあ。。。

  

 国母くんのことについての私の感想。。中学,高校の髪の毛の色や服装の検査じゃあるまいし。。オリンピックにも校則のようなものがあるんかい?。。ファッションなんて変遷するもんです。

 

ブックオフオンライン 

iconオンライン書店 boople.com(ブープル)

| | コメント (2) | トラックバック (0)

その他のカテゴリー

001. 目次 | 002. 募金・ボランティア | 003. 日記・回想 | 004 訃報 | 005. 心身・思想・哲学 | 006. 社会・経済・政治 | 007. 病気(診察・薬) | 008. 恋愛・異性 | 009 宗教・神話 | 010 歴史(日本,世界) | 011. 将棋 | 012. TV(ニュース・ドラマ) | 013 スポーツ(ニュース・イベント) | 014 ノン・フィクション | 015 小説・詩・評論 | 016 漫画・劇画・アニメ | 017 演劇・映画・舞踊 | 018 音楽(日本・西洋・他) | 019 タレント(俳優・お笑い) | 020 ミュージシャン | 021 アイドル・ヒーロー | 022 創作 | 023 シャレ・ギャグ等 | 024 競馬・toto・賭け事 | 025 ファッション・風俗 | 100. 物理学一般 | 101 教育・学校(物理) | 102. 力学・解析力学 | 103. 電磁気学・光学 | 104. 熱力学・統計力学 | 105. 相対性理論 | 106. 星・ブラックホール・一般相対性 | 107. 重力・宇宙・一般相対性 | 108. 連続体・流体力学 | 109. 物性物理 | 110. 複雑系・確率過程・非線型・非平衡 | 111. 量子論 | 112. 原子・分子物理 | 113. 原子核物理 | 114 . 場理論・QED | 115. 素粒子論 | 116. 弦理論 | 118. 観測問題・量子もつれ | 119. 電気回路 | 200. 問題・解答 | 201. 自然科学一般 | 202. 気象・地学・環境 | 203. 生物学・生理学・生化学 | 204. 経済学(ミクロ・マクロ・マルクス) | 300 数学一般・算数 | 301. 集合・位相 | 302. 論理学・数学基礎論 | 303. 代数学・数論 | 304. 解析学 | 305. 複素数・複素関数論 | 306. 線型代数学 | 307. 幾何学(トポロジー・他) | 308. 微分方程式 | 309. 確率・統計 | 310. 関数解析・超関数 | 311 .数値計算・調和解析・離散数学 | 312. 公式・特殊関数 | 501. 商用宣伝・アフィリエイト