大家好,從數學建模競賽中逐漸抽身的我,繼續對數理統計的知識點作梳理。

上一節中我們對方差分析的內容進行了引入,這一節將繼續對方差分析的理論介紹,如果篇幅允許,我們會繼續介紹迴歸分析的內容。

提供之前筆記的目錄:

統計學筆記|數理統計知識點概要(1)

統計學筆記|數理統計知識點概要(2)

統計學筆記|數理統計知識點概要(3)

統計學筆記|數理統計知識點概要(4)

統計學筆記|數理統計知識點概要(5)

下面我們開始正文

目錄

單因素試驗的方差分析(下)

S_E,S_A

的統計學特性

假設檢驗問題的拒絕域

引數估計

雙因素有重複試驗的方差分析

雙因素無重複試驗的方差分析

小結

S_E,S_A

的統計學特性

我們在上一節的最後引入了平方和的分解,我們再次強調一遍這個式子。

S_T=S_E+S_A

其中,

S_T=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X)^2,S_E=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X_{.j})^2,S_A=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(\bar X_{.j}-\bar X)^2

這個式子中,

S_T

表示每一個試驗資料與所有的均值的差,也就反映了一個大的總體的所有資料的差異大小(也可以說是總體上不穩定因素的大小,因為方差就是用來描述資料集的不穩定性的)。

S_E

表示的是每一個試驗資料在一個水平上的資料差異大小(不穩定性大小),

S_A

表示的是每一個水平在總體上的資料差異大小,因為

S_E

表示的每一個水平的誤差,所以叫

誤差平方和

,而

S_A

表示的是水平之間的誤差,我們在上一節定義了它為效應,所以叫

效應平方和

。它們的和就是

總變差

S_T

將這個式子按照維度作了拆解之後,問題就會容易很多,我們繼續往下看

S_E

首先我們將這個式子拆出來寫成n個水平的誤差之和。

S_E=\sum\limits_{i=1}^{n_1}(X_{i1}-\bar X_{.1})^2+\cdots+\sum\limits_{i=1}^{n_s}(X_{is}-\bar X_{.s})^2

注意到,每一個水平上的誤差之和,是其樣本方差的

n_j-1

倍(對於第j個水平而言),所以我們根據定理二

\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

,我們可以得到

\frac{\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X_{.j})^2}{\sigma^2} \sim \chi^2(n_j-1)

結合我們之前的假設,各

X_{ij}

相互獨立,因此式子中的各平方和相互獨立(不要問我這個性質怎麼證)。由可加性,我們可以將每一個分量式子的自由度加起來,而左邊加起來就是

S_E

,因此我們有

\frac{S_E}{\sigma^2} \sim \chi^2(n-s)

。這個式子的意思是,

S_E/\sigma^2

滿足一個 #FormatImgID_20# 分佈,並且它的自由度是在資料個數的基礎上去掉分類的組數(水平個數)

我們來看看

S_A

,這個玩意相對友好一些,因為相當於之前已經做過了一次求均值的步驟,在這個式子中只是把每一個水平的效應平方

(\bar X_{.j}-\bar X)^2

乘上了每一個水平的資料組數

n_j

而已。也就是說f它實際上是s個變數

\sqrt{n_j} (\bar X_{.j}-\bar X)(j=1,2,\cdots,s)

的平方和。這個式子的分析難度超出了我們的範圍,因此我們暫時跳過,如果我找到了相關的證明材料會再補上。

我們用分析

E(S_A)

的方法代替,我們注意到

E(S_A)=E[\sum\limits_{j=1}^{s}n_j\bar X_{.j}^2-n\bar X^2]=\sum\limits_{j=1}^{s}n_jE(\bar X_{.j}^2)-nE(\bar X^2)

=\sum\limits_{j=1}^{s}n_j[\frac{\sigma^2}{n_j}+(\mu+\delta_j)^2]-n(\frac{\sigma^2}{n}+\mu^2)=(s-1)\sigma^2+\sum\limits_{j=1}^{s}n_j\delta_j^2

其中這些平方的期望的值可以利用

\bar X \sim N(\mu,\frac{\sigma^2}{n})

得到,具體的我在第2節有過介紹。

因此,如果

H_0

為真,那麼所有的效應值為0,因此可以得到

\frac{S_A}{\sigma^2} \sim \chi^2(s-1)

。進一步可以證明的是

S_A,S_E

相互獨立,但是我也不知道具體咋證,所以我們就略過它好了……

假設檢驗問題的拒絕域

我們從期望入手,探討這個問題。

首先我們可以得到,如果

H_0

為真,那麼有

\frac{S_A}{\sigma^2} \sim \chi^2(s-1)

,也就是說,我們可以得到

E(\frac{S_A}{s-1})=\sigma^2

,但是我們在上一節分析了,無論如何,

E(\frac{S_E}{n-s})=\sigma^2

。因此兩個統計量均為

\sigma^2

的無偏估計。這句話表明了,這兩個統計量均和

\sigma^2

有千絲萬縷的聯絡,因此需要做的方差分析就是要比較兩個統計量的方差是否相等。所以根據我們之前文章介紹的定理,顯然

F

分佈是我們所需要考慮的。因此我們的檢驗統計量自然為

\frac{S_A/(s-1)}{S_E/(n-s)}

。另外,我們根據上一部分推出的

E(S_A)

,我們可以看出,如果

H_0

不真,那麼就會出現效應值,那麼這個檢驗統計量會變大。因此根據這些分析,我們可以得到我們的拒絕域

F=\frac{S_A/(s-1)}{S_E/(n-s)} \ge F_\alpha(s-1,n-s)

這兩個統計量我們稱作

均方

在實際的生活中,我們計算

S_T,S_E,S_A

常使用如下的簡便方法

S_T=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}^2-n\bar X^2=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}^2-\frac{T_{..}^2}{n}

S_A=\sum\limits_{j=1}^{s}n_j\bar X_{.j}^2 -n\bar X^2=\sum\limits_{j=1}^s \frac{T_{.j}^2}{n_j}-\frac{T_{..}^2}{n}

S_E=S_T-S_A

其中

T_{.j}=\sum\limits_{i=1}^{n_j}X_{ij},j=1,2,\cdots,s,T_{..}=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}

因為在R中我們只需要幾行命令就可以完成這個工作,所以我們不再展示具體的細節。大家有個印象就可以了。

引數估計

我們容易得到,

\hat \mu=\bar X,\hat \mu_j=\bar X_{.j}

分別為

\mu,\mu_j

的無偏估計。透過此還容易得到

\hat \delta_j=\bar X_{.j}- \bar X

\delta_j

的無偏估計。

我們需要這些的目的是,當我們發現每一個水平之間有差異的時候,我們需要知道差異的大小,因此對於任意第

j,k

項,我們往往需要對

\delta_j-\delta_k

做一個區間估計。我們根據之前我們介紹的抽樣分佈定理,以及

E(\bar X_{.j}-\bar X_{.k})=\mu_j-\mu_k,D(\bar X_{.j}-\bar X_{.k})=\sigma^2(\frac1{n_j}+\frac1{n_k})

我們可以得到

\frac{(\bar X_{.j}-\bar X_{.k})-(\mu_j-\mu_k)}{\sqrt{\dfrac{S_E}{n-s}(\dfrac{1}{n_j}+\dfrac1{n_k})}} \sim t(n-s)

。它的置信水平為

1-\alpha

的置信區間為

\left(\bar X_{.j}-\bar X_{.k} \pm t_{\alpha/2}(n-s)\sqrt{\bar S_E(\frac1{n_j}+\frac1{n_k})}\right)

雙因素有重複試驗的方差分析

雙因素試驗的反差分析會更加的麻煩,我們按照和單因素方差分析相同的分析思路,先畫出它的可能的資料形式。

統計學筆記|數理統計知識點概要(6)

在這個表格中,

A,B

為兩個因素,對於這兩組因素,我們每一個具體的因素值,設定t組試驗。那麼在下標

X_{rst}

中,r代表第一個因素的第r個水平,s代表第二個因素的第s個水平,t代表試驗的第t組資料。上面這個表也就自然展現了這些資料的形式,可以幫助理解。

因為這裡是雙因素,因此這裡的每一個具體的水平值都需要參考兩個因素的指標,因此它的標記就要改成

\mu_{ij}

我們用和單因素方差分析相同的思想,我們可以得到下面的記號

\begin{cases} X_{ijk}=\mu_{ij}+\varepsilon_{ijk}, \\ \varepsilon_{ijk} \sim N(0,\sigma^2),\\ i=1,2,\cdots,r;j=1,2,\cdots,s;k=1,2,\cdots,t. \end{cases}

同樣的,我們還需要對於水平值中不同的影響做進一步的拆解分析,所以又有了如下記號。

\begin{cases} \mu=\dfrac1{rs}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\mu_{ij},\\ \mu_{i.}=\frac1s\sum\limits_{j=1}^{s}\mu_{ij},i=1,2,\cdots,r, \\ \mu_{.j}=\frac1r\sum\limits_{i=1}^{r}\mu_{ij},j=1,2,\cdots,s,\\ \alpha_i=\mu_{i.}-\mu, \\ \beta_j =\mu_{.j}-\mu, \end{cases}

針對此,我們稱

\mu

為總平均,

\alpha_i

為水平

A_i

的效應,而

\beta_j

為水平

B_j

的效應,於是我們可以表示每一個具體的水平值為

\mu_{ij}=\mu+\alpha_i+\beta_j+(\mu_{ij}-\mu_{i.}-\mu_{.j}+\mu)

我們定義最後括號的一項為

\gamma_{ij}

,它被稱為是

A_i,B_j

兩個水平的

互動效應

因為

\alpha,\beta

它們是

效應

,所以他們的和為0,同理也可以推出,

\gamma_{ij}

在任何一個維度求和的結果也為0。

同理,如果我們要檢驗這個模型,我們需要討論的就是三個方差:效應A,效應B,效應A和B的交叉部分。寫出來就是

\begin{cases} H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ H_{11}:\mathrm{not~all~zero} \end{cases}

\begin{cases} H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ H_{12}:\mathrm{not~all~zero} \end{cases}

\begin{cases} H_{03}:\gamma_{11}=\gamma_{12}=\cdots=\gamma_{rs}=0\\ H_{13}:\mathrm{not~all~zero} \end{cases}

同樣的,我們給平均值一些記號

\bar X=\frac1{rst}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}

\bar X_{ij.}=\frac1t\sum\limits_{k=1}^{t}X_{ijk}

\bar X_{i..}=\frac1{st}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}

\bar X_{.j.}=\frac1{rt}\sum\limits_{i=1}^{r}\sum\limits_{k=1}^{t}X_{ijk}

引入

總變差

S_T=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^s\sum\limits_{k=1}^{t}(X_{ijk}-\bar X)^2

根據同樣的平方和的分解的思想,我們有

S_T=S_E+S_A+S_B+S_{A\times B}

S_E=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}(X_{ijk}-\bar X_{ij.})^2

S_A=st\sum\limits_{i=1}^{r}(\bar X_{i..}-\bar X)^2,S_B=rt\sum\limits_{j=1}^{s}(\bar X_{.j.}-\bar X)^2

S_{A \times B}=t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(\bar X_{ij.}-\bar X_{i..}-\bar X_{.j.} + \bar X)^2

最後一個我們稱為

互動效應平方和

這一節的公式比較多,但是絕大部分的內容都是和上一部分的單因素試驗方差分析相似的。只是多了證明的難度,因此我們不加證明的直接給出這一系列的結論,可能會看上去不太舒服。因此請大家一定要與上面對比來看。

我們繼續說,我們還可以得到以下的結果

E(\frac{S_E}{rs(t-1)})=\sigma^2,E(\frac{S_A}{r-1})=\sigma^2+\frac{st\sum\limits_{i=1}^{r}\alpha_i^2}{r-1},E(\frac{S_B}{s-1})=\sigma^2+\frac{rt\sum\limits_{j=1}^{s}\beta_j^2}{s-1}

E(\frac{S_{A\times B}}{(r-1)(s-1)})=\sigma^2+\frac{t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\gamma_{ij}^2}{(r-1)(s-1)}

這裡用到的結論是它們的自由度為

F(S_T)=rst-1,F(S_E)=rs(t-1),F(S_A)=r-1,F(S_B)=s-1,F(S_{A \times B})=(r-1)(s-1)

(這裡的F是自己隨便用的,因為英文為degree of freedom,然後D被用了……)

因為這裡實驗資料有

rst

組,對於

S_T

來說,只有一個限定條件

\bar X=\frac1{rst}\sum\limits_{i=1}^r\sum\limits_{j=1}^s\sum\limits_{k=1}^{t}X_{ijk}

,因此自由度只需要減去1。而對於

S_E

,由於有rs個分組,因此自由度需要減去rs(聯想一下上一部分),至於

S_A,S_B

,它們的自由度是需要根據其對應的分組組數減去一進行計算。而對於交叉項,把單獨項的自由度相乘起來即可。

對於他們的期望,一樣可以透過單因素的方差試驗得到的結果去進行類比。

顯然,

S_E

的結果是穩定的,但是其餘都不是,因此我們可以透過一樣的分析思路,得到我們的三個假設的拒絕域

\begin{cases} H_{01}:F_A=\frac{S_A/(r-1)}{S_E/(rs(t-1))}\ge F_\alpha(r-1,rs(t-1))\\ H_{02}:F_B=\frac{S_B/(s-1)}{S_E/(rs(t-1))} \ge F_\alpha(s-1,rs(t-1))\\ H_{03}:F_{A \times B}=\frac{S_{A\times B}/((r-1)(s-1))}{S_E/(rs(t-1))} \ge F_\alpha((r-1)(s-1),rs(t-1)) \end{cases}

這些均方和常用以下的公式進行手工計算。

\begin{cases} S_T=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}^2-\frac{T_{...}^2}{rst} \\ S_A=\frac1{st}\sum\limits_{i=1}^{r}T_{i..}^2-\frac{T_{...}^2}{rst} \\ S_B=\frac1{rt}\sum\limits_{j=1}^{s}T_{.j.}^2-\frac{T_{...}^2}{rst} \\ S_{A \times B} = (\frac1t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}T_{ij}^2-\frac{T_{...}^2}{rst})-S_A-S_B \\ S_E=S_T-S_A-S_B-S_{A \times B} \end{cases}

同樣的,我們只需要根據上一部分,理解這一部分的公式就可以了,不需要鑽研它的具體過程。

雙因素無重複試驗的方差分析

我相信兩個大例子分析完了之後,大家就應該有了意識:

方差分析中需要的F檢驗的兩個相關引數只與對應方差的自由度有關

。在這個例子中,我們假設沒有互動作用(否則誤差和互動作用沒有辦法分離開,就沒有辦法分析這個例子),那麼自由度也要稍微做一些修改。

在這個例子中,

F(S_A)=r-1,F(S_B)=s-1,F(S_E)=(r-1)(s-1),F(S_T)=rs-1

也就容易得到兩個假設檢驗(去掉了互動作用)的拒絕域,這裡請大家自己補全。

小結

本節的公式巨多……但是請大家不用擔心,如果只是使用R語言,那麼完全不需要去背下來,但是要對裡面的思想,自由度這些數值,概念有個印象,否則看懂R語言的輸出結果,可能還需要一點功夫。

下一節我們會對迴歸分析的相關內容做一個梳理引入。

因為本節實在是有點噁心,我就不求讚了,求個收藏好了。

——————————————————廣告————————————————————

統計學筆記|數理統計知識點概要(6)

想要更多方面的知識分享嗎?歡迎關注專欄:一個大學生的日常筆記。我鼓勵和我相似的同志們投稿於此,增加專欄的多元性,讓更多相似的求知者受益~