確率と分布関数(11)(区間推定)(終了)
確率と分布関数の続きです。今日の記事でこの課題は終わりです。
[定義14-1]:母集団分布p(x;θ)を持つ母集団からの任意標本をX1,X2,..,Xnとし,適当な正の数:(1-α)>0 (例えば 0.95(α=0.05),0.90(α=0.10),..)を与えます。
これに対して,これらの標本の適当な関数θ^1(X1,X2,..,Xn),θ^2(X1,X2,..,Xn)を選んでP(θ^1(X1,X2,..,Xn)<θ<θ^2(X1,X2,..,Xn))=1-αが成立するようにできるとき,この区間(θ^1,θ^2)を信頼度(confidence level)が(1-α)×100%の信頼区間(confidence interval)という。
また,θ^1,θ^2の値を信頼限界(confidence limit)という。
[例14-2]:信頼度:(1-α)×100%の信頼区間(θ^1,θ^2)を求める方法
(1)任意標本をX1,X2,..,Xnと母数θを含む確率変数(統計量):T(X1,X2,..,Xn;θ)であって,その確率密度関数:g(t)がθを含まないものを選ぶ。
(2)P(t1<T(X1,X2,..,Xn;θ)<t2)=∫t1t2g(t)dt=1-α (0<α<1)を満たすt1,t2を求める。
(3)左辺のt1<T(X1,X2,..,Xn;θ)<t2を変形してP(θ^1(X1,X2,..,Xn)<θ<θ^2(X1,X2,..,Xn))=1-αを満たす(θ^1,θ^2)を求める。
[例14-3]:正規母集団(normal population):N[μ,σ2]の母平均μの区間推定
(1)σ2が既知(σ2=σ02)の場合
母集団分布の確率密度関数はp(x;μ)=(2π)-1/2σ0-1exp{-(x-μ)2/(2σ02)}です。
任意標本X1,X2,..,Xnに対し,標本平均を<X>≡Σj=1nXj/nと置き,<X>をμの推定量とすると,これは明らかにE[<X>]=μを満たすのでμの不偏推定量(unbiased estimator)です。
また,Var[<X>]=σ02/nにより推定量の有効性(efficiency)はe[<X>]≡(nE[{∂[logp(X;μ)]/∂μ}2]Var[<X>])-1=1です。そしてlim n→∞ P(|<X>-μ|≧ε)=0 も成立するため,<X>は有効推定量,一致推定量(consistent estimator)でもあります。
そして,変数<X>は正規分布:N[μ,σ02/n]に従うため,変数:n1/2(<X>-μ)/σ0は標準正規分布:N[0,1]に従います。
それ故,1-α=P(-x0<n1/2(<X>-μ)/σ0<x0)=P(<X>-x0σ0/n1/2<μ<<X>+x0σ0/n1/2);(2π)-1/2∫-x0x0exp(-t2/2)dt=1-α,or (2π)-1/2∫0x0exp(-t2/2)dt=(1-α)/2と表現できます。
μ^1≡<X>-x0σ0/n1/2,μ^2≡<X>+x0σ0/n1/2と置くと,これらはX1,X2,..,Xnの関数です。結局,この場合の(1-α)×100%信頼区間は,(μ^1,μ^2)≡(<X>-x0σ0/n1/2,<X>+x0σ0/n1/2)となります。
μ^1,μ^2は確率変数ですが,区間の長さは(μ^2-μ^1)=2x0σ0/n1/2で一定です。
もしも,α=0.05を与えて 1-α=0.95,or (1-α)/2=0.475 とすればx0≒1.96なので,95%信頼区間は,(<X>-1.96σ0/n1/2,<X>+1.96σ0/n1/2)で与えられることがわかります。
(2)σ2が未知の場合
任意標本X1,X2,..,Xnに対して,標本平均を<X>≡Σj=1nXj/nと置き,やはり<X>をμの推定量μ^とします。前と同様,E[<X>]=μであり<X>はμの不偏推定量です。
また,S2≡Σj=1n(Xj-<X>)2/nとします。こうすればnS2/σ2=Σj=1n{(Xj-<X>)2/σ2}です。
ただし,今はμの推定量<X>を問題にしているので余談になりますが,3/12の記事「確率と分布関数(8)」の[定理11-5]:"E[{Σj=1n(Xj-<X>)2}/(n-1)]=σ2"によれば,分散σ2の不偏推定量はS2ではなく不偏分散:S02≡Σj=1n{(Xj-<X>)2/(n-1)}です。
そして,n変数:X1-<X>,X2-<X>,..,Xn-<X>は全て正規分布:N[0,σ2]を持ちますが,Σj=1n(Xj-<X>)=0 ですから,独立な確率変数は(n-1)個だけです。
そこで,2/19の記事「確率と分布関数(4)」の[定理6-15の系]:"X1,X2,..,Xnが全て正規分布N[μ,σ2]を持つn個の独立確率変数ならばΣj=1n{(Xj-μ)2/σ2}は自由度nのχ2分布を持つ。"からnS2/σ2=Σj=1n{(Xj-<X>)2/σ2}は自由度(n-1)のχ2分布に従います。
また,(<X>-μ)/(σ/n1/2)は標準正規分布:N[0,1]に従うことがわかっています。
「確率と分布関数(4)」の[定理6-17]:"確率変数XとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならばT≡X/(Y/n)1/2は自由度nのt分布を持つ。"により,T≡{(<X>-μ)/(σ/n1/2)}/[nS2/{(n-1)σ2}]1/2=(n-1)1/2(<X>-μ)/S=(<X>-μ)/S0と置けばTは自由度(n-1)のt分布に従います。
よって,1-α=P(-t0<(<X>-μ)/S0<t0)=P(<X>-t0S0<μ<<X>+x0S0);[Γ(n/2)/{(n-1)πΓ((n-1)/2)}1/2]∫-t0t0{1+t2/(n-1)}-n/2dt=1-α,or );[Γ(n/2)/{(n-1)πΓ((n-1)/2)}1/2]∫0t0{1+t2/(n-1)}-n/2dt=(1-α)/2を得ます。
そこで,この場合は(1-α)×100%信頼区間は(μ^1,μ^2)≡(<X>-t0S0,<X>+t0S0)となります。
ここまで,簡単なケースについて母集団からの標本によって母数の「区間推定(interval estimation)」を行うという概念を紹介しましたが,この他,同じく母集団からの標本に基づいて,"ある仮説=帰無仮説(null hypothesis)"の「仮説検定(test of hypothesis)」を行なうという概念もあります。
こちらは,"標本から得られる統計量が有意水準(significance level):αの母集団の確率分布の(1-α)の範囲からはずれていれば,母数に関する仮説が誤っている可能性が強い。"と判断します。
まあ,推定と検定はその推論の向きが逆の関係であるというだけで本質的な差異はないと思われるので,検定の詳細は省略します。
少し具体的な検定の例として2007年3/23の記事「タミフルと異常行動の因果性」があるので,よかったら参照してください。
さて,重回帰式(multiple regression):Y=x1β1+x2β2+..+xpβp+ε=Σk=1pxkβk+εの回帰係数(regression voefficients):β^1,β^2,..β^pの区間推定,または有意性検定を論じるために,前記事「確率と分布関数(10)」の最後の部分を再掲します。
◎(再掲記事):
[定義13-5]:n個の標本Y1,Y2,..,YnをYj=xj1β1+xj2β2+..+xjpβp+εj=Σk=1pxjkβk+εj (j=1,2,..,n)と置く。ただしβk(k=1,2,..,p)は未知母数でありxjk(j=1,2,..,n;k=1,2,..,p)は既知定数である。
εj(j=1,2,..,n)は誤差で,これらは互いに独立な確率変数であって全てN[0,σ2]に従うと仮定する。これを線形回帰モデルという。
β^kをβkの推定量とするとき,Yj-Σk=1pxjkβ^k(j=1,2,..,n)を残差(residual)という。残差の平方和:Q(β^)=Σj=1n(Yj-Σk=1pxjkβ^k)2を最小にする回帰係数:β^=(β^1,β^2,.., β^p)を求める方法を最小二乗法(method of minimum square)という。
先にQ(β^1,β^2)の最小値を与えるβ^1,β^2を回帰係数とする回帰直線y=β^1+β^2xを求めた手続きを単回帰(sigle redression)と呼ぶのに対して上記のp≧3の手続きを重回帰(multiple linear regression)という。
そして,Q(β^)が最小になるための必要条件:-(1/2)(∂Q/∂β^k)=Σj=1n[xjk{Yj-(xj1β^1+xj2β^2+..+xjpβ^p)}]=0 (k=1,2,..,p)を正規方程式(normal equations)と呼ぶ。
※(注):具体的に正規方程式を解きます。
正規方程式はΣj=1n(xjkxj1β^1+xjkxj2β^2+..+xjkxjpβ^p)=Σj=1nxjkYj (k=1,2,..,p)です。
Skl≡Σj=1nxjkxjl,Dk≡Σj=1nxjkYjと置けば,正規方程式はΣl=1pSklβ^l=Dk (k=1,2,..,p)と書けます。これは(p×p)係数行列Sとp次元縦ベクトル:β^≡t(β^1,β^2,..,β^p),D≡t(D1,D2,..,Dp)による行列表現ではSβ^=Dです。
また,Y=t(Y1,Y2,..,Yn),xk≡t(x1k,x2k,..,xnk) (k=1,2,..,p)なるn次元縦ベクトルを用いるとSkl=Σj=1nxjkxjl=txkxl,Dk=Σj=1nxjkYj=txkY(k,l=1,2,..,p)ですから,(n×p)行列XをX≡(x1,x2,..,xp)で定義すると,S=tXX,D=tXYと書けます。
さらに,Yj=Σk=1pxjkβk+εj (j=1,2,..,n)もβ≡t(β1,β2,..,βp),ε≡t(ε1,ε2,..,εn)により,Y=Xβ+εですからD=tXY=Sβ+tXεです。
S=tXXについてdetS≠0と仮定すれば,T=(tij)≡S-1が存在するので正規方程式Sβ^=Dから,"β^=S-1D=TDなる解=回帰係数"が得られます。
X=(x1,x2,..,xp)は既知定数成分の行列なのでS=tXX,T=S-1も確率変数ではないため,E[β^]=S-1E[D]=S-1E[Sβ+tXε]=E[β]+S-1 tXE[ε]=βよりβ^はβの不偏推定量です。(注終わり)※
[定理13-6]:Cov(β^i,β^j)=tijσ2,特にVar(β^i)=tiiσ2 (i,j=1,2,..,p),またQ(β^)=Σj=1nYj2-Σk=1pDkβ^kであり,E[Q]=(n-p)σ2である。(再掲終わり)◎
さて,Q(β^)を改めてSe2≡Σj=1n(Yj-Σk=1pxjkβ^k)2と定義すれば,定理からE[Se2]=E[Q]=(n-p)σ2です。そしてコクラン(Cochran)によれば,Se2/σ2は自由度(n-p)のχ2分布に従います。
p個の説明変数x1,x2,..,xpと定数項β0を持つ重回帰式:Y=β0+x1β1+..+xpβp+ε=β0+Σk=1pxkβk+εは,(p+1)個の説明変数x1,x2,..,xp+1による式:Y=x1β1+x2β2+..+xp+1βp+1+ε=Σk=1p+1xkβk+εにおいてx1=1とした後,変数の添字を(xk,βk) → (xk-1,βk-1)とシフトしたものに一致します。
そこで,このときの誤差の二乗和Se2=Σj=1n(Yj-β^0-Σk=1pxjkβk^)2から作った統計量Se2/σ2は自由度(n-p)ではなく自由度(n-p-1)のχ2分布に従います。
そこで,Ve≡Se2/(n-p-1)と置くと,これはE[Ve]=σ2を満たすので,これが重回帰モデルにおける不偏分散です。
これは,確かに単回帰Y=β^1+β^2x(p+1=2)のときの不偏分散Se2/(n-2)の拡張になっています。
不偏分散Veを用いると,(n-p-1)Ve=Se2/σ2が自由度(n-p-1)のχ2分布に従うと表現できます。
一方,回帰係数:β^i(i=0,1,2,..,p)はβ^=S-1D=TD,D=tXYでE[β^i]=βi,Var(β^i)=tiiσ2により,正規分布N[βi,tiiσ2]に従うことがわかります。そこで(βi-βi)/(tii1/2σ)は標準正規分布N[0,1]に従います。
そこで,再び先述の「確率と分布関数(4)」の[定理6-17]:"確率変数XとYが独立でXがN[0,1],Yが自由度nのχ2分布を持つならばT≡X/(Y/n)1/2は自由度nのt分布を持つ。"から,(β^i-βi)/(tiiVe)1/2は自由度(n-p-1)のt分布に従うことが言えます。
以上から,t分布の(1-α)信頼区間:(-t0,t0)を,1-α=P(-t0<(β^i-βi)/(tiiVe)1/2<t0)で与えることができます。
このt0値を具体的にt分布表から読めば(1-α)信頼区間が得られるわけです。例えば自由度が(n-p-1)=60の場合にα=0,05,1-α=0.95の95%信頼区間を与えるt0はt0=2.00です。
なお,これを書く動機となった先輩から受けた質問の2010年2/5の2度目のメールの内容は以下の通りです。
◎:一寸,多重回帰で質問です。
「t値」って分かりやすい言葉で説明したらどうなりますか?
t値の式は,[変量iのt値(i)]=[回帰係数(i)/標準誤差(i)]です。
ただし,標準誤差(i)=root(sii・Ve)
sii:偏差平方和,偏差積和行列の逆行列のii成分
Ve:不偏分散=(残差平方和)/(n-p-1)
n:サンプル数
p:説明変量の数,です。
この変量iの標準誤差(i)が良く分かりません。
又,(sii:偏差平方和,偏差積和行列の逆行列のii成分)とは何のことかも分かりません。
EXCELである説明変量を100倍して回帰を取ったら,ちゃんと回帰係数は元の100分の1になるけれどt値は変わらないんだね。
標準誤差が偏差平方和,偏差積和行列の逆行列を基にして求められているからだろうと思うけれど。
それと一般に(ネットで見たけれど),t値の絶対値が2以上だったら良いというのはどういう理由か分かりますか?
以上,簡単な日本語で説明できればお願いします。◎
※(注):メール上の行列S=(sij)は私の説明ではT=(tij)=S-1なので,siiにはtiiが対応している他は,共通の記号を使用しています。これで質問に対する回答は全て答えたと思います。(了)※
しかし,ちょっとした質問を動機にして昔(約20年前)勉強したノ-ト3冊全部を読み直し,自分の復習やより深い理解を目指してくどい説明をしたためウザイと取られたと想像します。
しかし,私の勝手な自己満足の方は十分充足されました。
取り合えず,シリーズ記事の1つのテーマは片付いたので,次から別の課題に集中できます。
参考文献:藤沢武久 著「新編 確率・統計」(日本理工出版会)
PS:3/25(木) 朝起きたら頭が痛くて寒気がする。。ウーン,この身体は天侯,気温通りだなあ。。部屋の中に古い精神安定剤が落ちてたのでそれを飲んで寝ます。
| 固定リンク
「309. 確率・統計」カテゴリの記事
- 確率と分布関数(補遺)(2010.04.03)
- 確率と分布関数(11)(区間推定)(終了)(2010.03.24)
- 確率と分布関数(10)(線形回帰の基礎)(2010.03.23)
- 確率と分布関数(9)(推定2)(2010.03.18)
- 確率と分布関数(8)(推定1)(2010.03.12)
この記事へのコメントは終了しました。
コメント
区間推定と言えば、「正規分布の場合は両側のすそを切る、指数分布の場合は右すそを切るのが良いと、『経験』で分かっている」なんて寝ぼけたことを言ってた教師がいて、「最小の区間にしたければ、確率密度の小さい所を切るのが当然だろ!」と心の中で突っ込んだのを思い出した。
教師だけじゃなく教科書に使う本でも、「自分で理由を考えない奴が書いてるのか?」と言いたくなる様な説明が時々ありますねー。
投稿: hirota | 2010年12月 9日 (木) 12時57分