確率と分布関数(2)(分布関数,密度関数)
昨日の続きです。
[定義3-5]:Xを確率変数とするとき,∀x∈Rに対して事象(X≦x)∈Fの確率をP(X≦x)と表わすと,これはx∈Rの関数となる。
この関数を確率変数Xの分布関数,または累積分布関数といい,一般にF(x),またはFX(x)と表記する。
すなわち,
F(x)≡P(X≦x)=P({ω∈Ω|X(ω)≦x})(-∞<x<∞)
である。
以下では,場合に応じて確率変数Xをr.V.X(random variable),分布関数F(x)をd.f.F(x)(distribution function)と記す。
[定理3-6]r.V.Xのd.f.F(x)は次の性質を有する。
(1) F(x)は非減少関数である。
(2) F(-∞)=limx→-∞F(x)=0,F(∞)=limx→∞F(x)=1
(3) F(x)は右連続関数である。
(証明)(1),(2)は自明なので(3)だけを証明します。
An≡(x<X≦x+1/n)と置けば∩n=1∞An=φなので,
limn→∞P(An)=P(limn→∞An)=P(φ)=0です。
一方,P(An)=F(x+1/n)-F(x)なので,
limn→∞F(x+1/n)=F(x)です。
同様にして,上記の特殊な数列:{1/n}に限らず,n→∞でゼロに収束する任意の非増加列:{εn}を考えても,limn→∞F(x+εn)=F(x)の成立が容易に示せるので,F(x)は右連続であると結論されます。
(証明終わり)
[定義3-7]:確率空間(Ω,F,P)が離散空間の場合,その上の確率変数をXとするとき,
pj≡P(X=xj)=P({ω∈Ω|X(ω)=xj})と定義すれば,Σjpj=1であるが,こうして定義される数列:{pj:-∞<j<∞}をXの確率分布という。
確率分布はp.d.と略記します。
これは,probability distributionの略です。
[例3-8]:∀ω∈Ωについてr.V.X=a(一定)のd.f.F(x)を考えると,x<aなら(X≦x)=φなのでF(x)=0,x≧aならF(X≦x)=ΩなのでF(x)=1です。
これを,Heaviside関数(階段関数)θ(x)(x<0 ならθ(x)=0,x>0 ならθ(x)=1;ただしθ(0)≡1)で表現するとF(x)=θ(x-a)と表現できます。この分布を退化分布といいます。
。
[例3-9]:既述のようにA∈Fでr.v.XがIA (=Aの指示関数)のときには,d.f.FIA(x)はx<0 ならFIA(x)=0,0≦x<1ならFIA(x)=1-P(A),x≧1ならFIA(x)=1です。
[例3-10]:r.V.Xがp.dとしてpj=P(X=xj)を持つ離散分布のときのd.f.F(x)を考えます。
各jについて,集合Aj≡(X=xj)={ω∈Ω|X(ω)=xj}を定義すると,X=ΣjxjIAjと表現できます。一方,F(x)=Σ(X≦xj)pj=Σj{pjθ(x-xj)}ですから,結局,F(x)=ΣjFIAj(x)です。
[定義3-11]:同じ確率空間の2個の確率変数X1,X2の同時分布関数F(x1,x2)を,F(x1,x2)≡P(X1≦x1,X2≦x2)=P(A1∩A2)によって定義する。
A1≡{ω∈Ω|X1(ω)≦x1},A2≡{ω∈Ω|X2(ω)≦x2}である。
同時分布関数はj.d.fと略記します。
これはjoint distribution functionの略です。
[定義3-12]:∀x1,x2∈Rについて,
A1≡{ω∈Ω|X1(ω)≦x1},A2≡{ω∈Ω|X2(ω)≦x2}
が独立であるとき,
すなわちP(A1∩A2)=P(A1)P(A2)であるとき,
確率変数X1とX2は独立であるという。
いいかえると,P(X1≦x1,X2≦x2)=P(X1≦x1)P(X2≦x2),
あるいは,j.d.fが2つの確率変数X1とX2のそれぞれのd.f.の積としてF(x1,x2)=FX1(x1)FX2(x2)と表わせるとき,
X1とX2は独立であるという。
そして,この場合,右辺のFX1(x1),およびFX2(x2)を
周辺分布関数(m.d.f=marginal distribution function)という。
[定理3-13]:r.V.X1,X2のj.d.f.F(x1,x2)は次の性質を持つ。
(1) x1≦x1',x2≦x2'に対してF(x1,x2)≦F(x1',x2')
(2) limx1→∞F(x1,x2)=FX2(x2),limx2→∞F(x1,x2)=
FX1(x1)である。
(3) limx1→-∞F(x1,x2)=limx2→-∞F(x1,x2)=0
(4) limx1→∞,x2→∞F(x1,x2)=1である。
(5)P(a1<X1≦b1,a2<X2≦b2)=F(b1,b2)-F(a1,b2)-F(b1,a2)+F(a1,a2)が成立する。
(証明)(5)だけ証明します。
(X1≦b1)=(X1≦a1)+(a1<X1≦b1),
(X2≦b2)=(X2≦a2)+(a2<X2≦b2)ですから,
(X1≦b1)∩(X2≦b2)
=(X1≦a1)∩(X2≦a2)+(X1≦a1)∩(a2<X2≦b2)
+(a1<X1≦b1)∩(X2≦a2)+(a1<X1≦b1)∩(a2<X2≦b2)
です。
故に,P(a1<X1≦b1,a2<X2≦b2)
=F(b1,b2)-F(a1,a2)-P(X1≦a1,a2<X2≦b2)
-P(a1<X1≦b1,X2≦a2) です。
そして,P(X1≦a1,a2<X2≦b2)
=P((X1≦a1)∩(X2≦b2)-(X1≦a1)∩(X2≦a2))
=P(X1≦a1,X2≦b2)-P(X1≦a1,X2≦a2)
=F(a1,b2)-F(a1,a2) です。
同様に,
P(a1<X1≦b1,X2≦a2)=F(b1,a2)-F(a1,a2)
ですから,結論を得ます。(証明終わり)
[定義3-14]:確率変数Xの取り得る値が高々可算個であるとき,Xを離散(型)(discrete)確率変数という。
これは,Σj=1∞(X=xj)=Ωを満たす高々可算濃度の集合:{xj}⊂Rが存在することを意味する。
このとき,pj≡P(X=xj)はΣj=1∞pj=1なる条件を満たす。
この{pj}を離散確率変数Xの確率分布(p.d.=probability distribution)という。
そして,この場合p(x)≡P(X=x)=pj (if x=xj),
p(x)=0 (if x≠xj)を離散密度関数,または確率関数と呼ぶ。
この離散確率変数Xのd.f.は,前にも述べたようにF(x)=Σ(X≦xj)pjで与えられます。
[定義3-15]:同じ確率空間の2個の離散確率変数X1,X2の取り得る値が{x1i},{x2j}であるとき,
pij≡P(X1=x1i,X2=x2j)(pij≧0,Σi,j=1∞pij=1)なる{pij}を,X1,X2の同時確率分布(j.p.d.)という。
そして,pi・≡P(X1=x1i)=Σj=1∞pij,およびp・j≡P(X2=x2j)=Σi=1∞pijをそれぞれX1の周辺確率分布,X2の周辺確率分布(m.p.d.)という。
[定義3-16]:∀x1,x2∈RについてA1≡{ω∈Ω|X1(ω)≦x1},A2≡{ω∈Ω|X2(ω)≦x2}が独立であるとき,
すなわちP(A1∩A2)=P(A1)P(A2)のとき,
確率変数X1とX2は独立であるという。
[定義3-17]:連続的な分布関数を持つ確率変数を連続(型)(continuous)確率変数という。
連続型変数の場合,確率変数をXと置くと,
P(X=x)≦P(x-h<X≦x)=F(x)-F(x-h)→0(h→0)
です。
確率は区間の長さ(=測度)hに比例するので,
xが連続点である限り1点x(長さhがゼロ)での確率はゼロです。
[定義3-18]:連続確率変数Xについて,∀a,b(a≦b)に対して,
P(a<X≦b)=∫abf(x)dxを満たすf(x)≧0 が存在すれば,
これをXの確率密度関数という。
確率密度関数をp.d.fと書きます。これはprobability distribution functionの略です。
密度関数f(x)が存在するとき,
d.f.はF(x)=P(X≦x)=∫-∞xf(t)dtで与えられますから,
F(x)が連続であって可算個の点を除いて導関数を持つとき,
連続点xではf(x)=dF(x)/dxです。
すなわち,次式の右辺の極限値が存在するときには
f(x)=limΔx→0{P(x<X≦x+Δx)/Δx},
あるいはf(x)dx=P(x<X≦x+dx)です。
[定理3-19]:(確率密度関数の性質)
f(x)を確率密度関数とすると,
(1)f(x)≧0
(2)∫-∞∞f(x)dx=1 である。
[補助定義]:(スティルチェス積分の定義)(T.J.Stieltjesによる)
F(x),g(x)を[a,b]で定義された実数値関数とする。
ただし,F(x)は非減少関数,g(x)は連続関数とする。
閉区間[a,b]の任意の分割:a=x0<x1<x2<..<xn=bに対して和:Σj=0n-1g(ξj){F(xj+1)-F(xj)};ξj∈(xj,xj+1)を作る。
この和が,max(0≦j≦n-1)(xj+1-xj)→0 に対して一定値に収束するとき,この値をg(x)のF(x)によるスティルチェス積分といい,
∫abg(x)dF(x)と表わす。
特に,F(x)=xのときはスティルチェス積分は,リーマン積分(Riemann integral)に一致します。
※(注)スティルチェス積分は測度関数:F(x)が非減少関数のときだけではなく,有界変動関数のときにも定義できます。
また,リーマン積分だけでなく,ルベーグ積分(Lebesgue integral)も同じようにスティルチェス積分に拡張されます。
ブラウン運動(Brownian motion)のような場合には,その運動経路の測度(長さ)が有界変動ではないので,こうした通常の積分を定義することは不可能です。
よって,伊藤積分のような新概念が必要になります。※
さて,分布関数d.f.F(x)がx=xjにおいて,
不連続なジャンプ:pj(j=1,2,..,n)を持つ非減少関数で,
区間(xj,xj+1)ではF'(x)=fj(x)を満たすとします。
a=x0,b=xn+1でとし,区間(a,b)でg(x)が連続のときには,
∫abg(x)dF(x)=Σj=0n∫xjxj+1g(x)fj(x)dx+Σj=1ng(xj)pj
と表現可能です。
スティルチェス積分の表記では,確率変数Xの分布関数をF(x)とすると,F(x)が連続的か離散的かに関わらず,
式:F(x)=∫-∞xdF(t)が成立します。
[定義3-20]:同一確率空間上のn個の確率変数:X1,X2,..,Xnの同時分布関数F(x1,x2,..,xn)≡P(X1≦x1,X2≦x2,..,Xn≦xn)に対して,
F(x1,x2,..,xn)=∫-∞x1∫-∞x2..∫-∞xnf(t1,t2,..,tn)dt1dt2..dtnを満たす関数:つまり密度関数f(x1,x2,..,xn)が存在するとき,
同時分布関数:F(x1,x2,..,xn)は絶対連続であるという。
このとき,f(x1,x2,..,xn)をX1,X2,..,Xnの同時確率密度関数(j.p.d.f.)という。
※(注):2007年7/7の記事「条件付確率と条件付期待値」では,逆に絶対連続なら確率密度関数が存在するという内容の「ラドン・ニコディム(Radon Nikodym)の定理」を紹介しました。
ただ,一見では両者で絶対連続の定義が違うようにも見えます。
すなわち,ラドン・ニコディムの定理は,
"もしもF(A)が"絶対連続:Eの測度μ(E)=0 なら常にF(E)=0 が成立する。"なら,適当な密度関数f(x)が存在してF(A)=∫Af(x)μ(dx)と表現できる。"
というものです。
より一般には定理の前半として「任意の集合関数は絶対連続な集合関数と特異な(絶対連続でない)集合関数との和に一意的に分解される。」という命題も含まれています。
後者の命題は任意の分布関数は連続分布の部分と離散分布の部分の和に一意的に分割表現できるというような意味でしょう。(注終わり)※
以下では連続な確率変数については基本的に常に確率密度関数が存在するようなあまり特異でない分布のみを考察の対象とします。
さて,同時的確率密度関数の基本性質は,
(1)f(x1,x2,..,xn)≧0
(2)∫-∞∞∫-∞∞..∫-∞∞f(t1,t2,..,tn)dt1dt2..dtn=1
(3)F(x1,x2,..,xn)が微分可能な点(x1,x2,..,xn)では,
f(x1,x2,..,xn)=(∂n/∂x1∂x2,..∂xn)F(x1,x2,..,xn)
です。
[定義3-21(1)]:簡単のためn=2とする。
すなわち,確率変数X1,X2の同時分布関数をF(x1,x2)≡P(X1≦x1,X2≦x2)とする。
このとき,周辺確率密度関数(m.p.d.f.)fX1,fX2を,
fX1(x1)=∫-∞∞f(x1,x2)dx2,
fX2(x2)=∫-∞∞f(x1,x2)dx1
によって定義する。
[定義3-21(2)]:fX2(x2)>0 のとき,
X2=x2の下でのX1の条件付確率密度関数を
fX1(x1|X2=x2)≡f(x1,x2)/fX2(x2)で,
同様にfX1(x1)>0 のとき,
X1=x1の下でのX2の条件付確率密度関数を
fX2(x2|X1=x1)≡f(x1,x2)/fX1(x1)
で定義する。
すると,条件付分布関数は,
FX1(x1|X2=x2)=∫-∞x1fX1(τ|X2=x2)dτ={1/fX2(x2)}∫-∞x1f(τ,x2)dτ,
および,FX2(x2|X1=x1)=∫-∞x2fX2(τ|X1=x1)dτ={1/fX1(x1)}∫-∞x2f(x1,τ)dτ
になります。
確率変数X1,X2が独立であるとは,
F(x1,x2)=FX1(x1)FX2(x2)(FX1(x1),FX2(x2)は周辺分布関数)が成立することをいいますが,
これは密度関数が存在するときには,
f(x1,x2)=fX1(x1)fX2(x2)
が成立することに相当します。
このときには,条件付確率密度関数は,
fX1(x1|X2=x2)=fX1(x1),
かつfX2(x2|X1=x1)≡fX2(x2) となります。
さらに,一般のn個の確率変数X1,X2,..,Xnが独立であるとは,
F(x1,x2,..,xn)=Πj=1nFXj(xj)成り立つことをいいますが,
これは密度関数の表現では,
f(x1,x2,..,xn)=Πj=1nfXj(xj) です。
[例3-22]:確率変数X1,X2,..,Xnは全て同じ周辺分布関数F(x)を持つ独立確率変数であるとします。
(1) Y≡min(X1,X2,..,Xn)の分布関数:FY(y)=P(Y≦y)を求めてみます。
P(Y>y)=P(X1>y,X2>y,..,Xn>y)=P(X1>y)P(X2>y)..P(Xn>y)={1-F(y)}nですから,
FY(y)=P(Y≦y)=1-{1-F(y)}nです。
F(x)の"導関数=密度関数"f(x)=dF/dxが存在するとき,
Yの確率密度関数はfY(y)=dFY/dy=n{1-F(y)}n-1f(y)
です。
(2) Z≡max(X1,X2,..,Xn)の分布関数を求めます。
(1)と同様にしてFZ(z)=P(Z≦z)={F(z)}nです。
f(x)が存在するとき,
確率密度関数はfZ(z)=n{F(z)}n-1f(z)です。
(3)n個の確率変数X1,X2,..,Xnのうちでx∈Rを超えない確率変数の個数をNとするとき,Nの確率分布P(N=k)を考えます。
これは,P(N=k)=nCk[F(x)]k[1-F(x)]n-k
で与えられると考えられます。
ここでまた一休みします。(つづく)
参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)
| 固定リンク
「309. 確率・統計」カテゴリの記事
- 確率と分布関数(補遺)(2010.04.03)
- 確率と分布関数(11)(区間推定)(終了)(2010.03.24)
- 確率と分布関数(10)(線形回帰の基礎)(2010.03.23)
- 確率と分布関数(9)(推定2)(2010.03.18)
- 確率と分布関数(8)(推定1)(2010.03.12)
この記事へのコメントは終了しました。

































コメント
分布関数は実用性だけでなく数式表現でも優れてます。
確率変数 X の期待値を確率空間 (Ω,P) での積分で表わすと
E(X)=∫X dP=∫X(ω)dP(ω)
ですが、X の分布関数 F(x) で表わせばスティルチェス積分
E(X)=∫x dF(x)
となって、確率空間での積分と対応してスッキリした表現になります。(これが「分布関数」と名づけられた理由だと思う。分布関数の定義だけ見たって理由は分かんないよね)
投稿: hirota | 2010年11月19日 (金) 14時02分
分布関数は密度関数より基本的で重要なはずですが、なぜか冷遇されています。
しかし、限られたサンプルから最大限の情報を取り出して判断しようとすると分布関数の有難味が分かります。
貴重なデータを、そのまま統計処理するか対数変換するか分布の形を見て判断しようとしたとき、密度関数を近似するヒストグラムなんぞを描こうとすると、柱の幅を大きくしても小さくしても母集団分布と似ても似つかぬ密度グラフになってしまいます。
しかし、分布関数なら確実に正確なサンプル分布関数が描けてデータ情報を全く無駄にしていないという自信を持って判断ができます。
投稿: hirota | 2010年11月19日 (金) 13時32分
どもhirotaさん。ありがとうございます。TOSHIです。
>最後に「※」が付いてるのは注を書くつもりだったんでしょうが、無いですよ。
こちらの「※」は,ここでまでが私の注でそれがここで終わりという意味だけです。
これでわかると思ったのですが説明不足なので,(注終わり)と追記しときます。
TOSHI
投稿: TOSHI | 2010年11月18日 (木) 03時23分
「任意の分布関数は連続分布の部分と離散分布の部分の和に一意的に分割表現できるというような意味でしょう。※」
の最後に「※」が付いてるのは注を書くつもりだったんでしょうが、無いですよ。
さしずめ、カントール関数のような連続関数だけど絶対連続でない分布関数は離散じゃないのに特異関数に入るとか書こうとしたんじゃありません?
投稿: hirota | 2010年11月17日 (水) 13時34分