統計學筆記|數理統計知識點概要（6）

大家好，從數學建模競賽中逐漸抽身的我，繼續對數理統計的知識點作梳理。

上一節中我們對方差分析的內容進行了引入，這一節將繼續對方差分析的理論介紹，如果篇幅允許，我們會繼續介紹迴歸分析的內容。

提供之前筆記的目錄：

統計學筆記|數理統計知識點概要（1）

統計學筆記|數理統計知識點概要（2）

統計學筆記|數理統計知識點概要（3）

統計學筆記|數理統計知識點概要（4）

統計學筆記|數理統計知識點概要（5）

下面我們開始正文

單因素試驗的方差分析（下）

的統計學特性

假設檢驗問題的拒絕域

引數估計

雙因素有重複試驗的方差分析

雙因素無重複試驗的方差分析

小結

的統計學特性

我們在上一節的最後引入了平方和的分解，我們再次強調一遍這個式子。

其中，

$S_T=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X)^2,S_E=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X_{.j})^2,S_A=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}(\bar X_{.j}-\bar X)^2$

這個式子中，

表示每一個試驗資料與所有的均值的差，也就反映了一個大的總體的所有資料的差異大小（也可以說是總體上不穩定因素的大小，因為方差就是用來描述資料集的不穩定性的）。

表示的是每一個試驗資料在一個水平上的資料差異大小（不穩定性大小），

表示的是每一個水平在總體上的資料差異大小，因為

表示的每一個水平的誤差，所以叫

誤差平方和

，而

表示的是水平之間的誤差，我們在上一節定義了它為效應，所以叫

效應平方和

。它們的和就是

總變差

。

將這個式子按照維度作了拆解之後，問題就會容易很多，我們繼續往下看

首先我們將這個式子拆出來寫成n個水平的誤差之和。

$S_E=\sum\limits_{i=1}^{n_1}(X_{i1}-\bar X_{.1})^2+\cdots+\sum\limits_{i=1}^{n_s}(X_{is}-\bar X_{.s})^2$

注意到，每一個水平上的誤差之和，是其樣本方差的

倍（對於第j個水平而言），所以我們根據定理二

$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

，我們可以得到

$\frac{\sum\limits_{i=1}^{n_j}(X_{ij}-\bar X_{.j})^2}{\sigma^2} \sim \chi^2(n_j-1)$

結合我們之前的假設，各

$X_{ij}$

相互獨立，因此式子中的各平方和相互獨立（不要問我這個性質怎麼證）。由可加性，我們可以將每一個分量式子的自由度加起來，而左邊加起來就是

，因此我們有

$\frac{S_E}{\sigma^2} \sim \chi^2(n-s)$

。這個式子的意思是，

$S_E/\sigma^2$

滿足一個 #FormatImgID_20# 分佈，並且它的自由度是在資料個數的基礎上去掉分類的組數（水平個數）

。

我們來看看

，這個玩意相對友好一些，因為相當於之前已經做過了一次求均值的步驟，在這個式子中只是把每一個水平的效應平方

$(\bar X_{.j}-\bar X)^2$

乘上了每一個水平的資料組數

而已。也就是說f它實際上是s個變數

$\sqrt{n_j} (\bar X_{.j}-\bar X)(j=1,2,\cdots,s)$

的平方和。這個式子的分析難度超出了我們的範圍，因此我們暫時跳過，如果我找到了相關的證明材料會再補上。

我們用分析

的方法代替，我們注意到

$E(S_A)=E[\sum\limits_{j=1}^{s}n_j\bar X_{.j}^2-n\bar X^2]=\sum\limits_{j=1}^{s}n_jE(\bar X_{.j}^2)-nE(\bar X^2)$

$=\sum\limits_{j=1}^{s}n_j[\frac{\sigma^2}{n_j}+(\mu+\delta_j)^2]-n(\frac{\sigma^2}{n}+\mu^2)=(s-1)\sigma^2+\sum\limits_{j=1}^{s}n_j\delta_j^2$

其中這些平方的期望的值可以利用

$\bar X \sim N(\mu,\frac{\sigma^2}{n})$

得到，具體的我在第2節有過介紹。

因此，如果

為真，那麼所有的效應值為0，因此可以得到

$\frac{S_A}{\sigma^2} \sim \chi^2(s-1)$

。進一步可以證明的是

相互獨立，但是我也不知道具體咋證，所以我們就略過它好了……

假設檢驗問題的拒絕域

我們從期望入手，探討這個問題。

首先我們可以得到，如果

為真，那麼有

$\frac{S_A}{\sigma^2} \sim \chi^2(s-1)$

，也就是說，我們可以得到

$E(\frac{S_A}{s-1})=\sigma^2$

，但是我們在上一節分析了，無論如何，

$E(\frac{S_E}{n-s})=\sigma^2$

。因此兩個統計量均為

$\sigma^2$

的無偏估計。這句話表明了，這兩個統計量均和

$\sigma^2$

有千絲萬縷的聯絡，因此需要做的方差分析就是要比較兩個統計量的方差是否相等。所以根據我們之前文章介紹的定理，顯然

分佈是我們所需要考慮的。因此我們的檢驗統計量自然為

$\frac{S_A/(s-1)}{S_E/(n-s)}$

。另外，我們根據上一部分推出的

，我們可以看出，如果

不真，那麼就會出現效應值，那麼這個檢驗統計量會變大。因此根據這些分析，我們可以得到我們的拒絕域

$F=\frac{S_A/(s-1)}{S_E/(n-s)} \ge F_\alpha(s-1,n-s)$

。

這兩個統計量我們稱作

均方

。

在實際的生活中，我們計算

常使用如下的簡便方法

$S_T=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}^2-n\bar X^2=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}^2-\frac{T_{..}^2}{n}$

$S_A=\sum\limits_{j=1}^{s}n_j\bar X_{.j}^2 -n\bar X^2=\sum\limits_{j=1}^s \frac{T_{.j}^2}{n_j}-\frac{T_{..}^2}{n}$

其中

$T_{.j}=\sum\limits_{i=1}^{n_j}X_{ij},j=1,2,\cdots,s,T_{..}=\sum\limits_{j=1}^{s}\sum\limits_{i=1}^{n_j}X_{ij}$

因為在R中我們只需要幾行命令就可以完成這個工作，所以我們不再展示具體的細節。大家有個印象就可以了。

引數估計

我們容易得到，

$\hat \mu=\bar X,\hat \mu_j=\bar X_{.j}$

分別為

$\mu,\mu_j$

的無偏估計。透過此還容易得到

$\hat \delta_j=\bar X_{.j}- \bar X$

為

$\delta_j$

的無偏估計。

我們需要這些的目的是，當我們發現每一個水平之間有差異的時候，我們需要知道差異的大小，因此對於任意第

項，我們往往需要對

$\delta_j-\delta_k$

做一個區間估計。我們根據之前我們介紹的抽樣分佈定理，以及

$E(\bar X_{.j}-\bar X_{.k})=\mu_j-\mu_k,D(\bar X_{.j}-\bar X_{.k})=\sigma^2(\frac1{n_j}+\frac1{n_k})$

我們可以得到

$\frac{(\bar X_{.j}-\bar X_{.k})-(\mu_j-\mu_k)}{\sqrt{\dfrac{S_E}{n-s}(\dfrac{1}{n_j}+\dfrac1{n_k})}} \sim t(n-s)$

。它的置信水平為

$1-\alpha$

的置信區間為

$\left(\bar X_{.j}-\bar X_{.k} \pm t_{\alpha/2}(n-s)\sqrt{\bar S_E(\frac1{n_j}+\frac1{n_k})}\right)$

雙因素有重複試驗的方差分析

雙因素試驗的反差分析會更加的麻煩，我們按照和單因素方差分析相同的分析思路，先畫出它的可能的資料形式。

在這個表格中，

為兩個因素，對於這兩組因素，我們每一個具體的因素值，設定t組試驗。那麼在下標

$X_{rst}$

中，r代表第一個因素的第r個水平，s代表第二個因素的第s個水平，t代表試驗的第t組資料。上面這個表也就自然展現了這些資料的形式，可以幫助理解。

因為這裡是雙因素，因此這裡的每一個具體的水平值都需要參考兩個因素的指標，因此它的標記就要改成

$\mu_{ij}$

。

我們用和單因素方差分析相同的思想，我們可以得到下面的記號

$\begin{cases} X_{ijk}=\mu_{ij}+\varepsilon_{ijk}, \\ \varepsilon_{ijk} \sim N(0,\sigma^2),\\ i=1,2,\cdots,r;j=1,2,\cdots,s;k=1,2,\cdots,t. \end{cases}$

同樣的，我們還需要對於水平值中不同的影響做進一步的拆解分析，所以又有了如下記號。

$\begin{cases} \mu=\dfrac1{rs}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\mu_{ij},\\ \mu_{i.}=\frac1s\sum\limits_{j=1}^{s}\mu_{ij},i=1,2,\cdots,r, \\ \mu_{.j}=\frac1r\sum\limits_{i=1}^{r}\mu_{ij},j=1,2,\cdots,s,\\ \alpha_i=\mu_{i.}-\mu, \\ \beta_j =\mu_{.j}-\mu, \end{cases}$

針對此，我們稱

$\mu$

為總平均，

$\alpha_i$

為水平

的效應，而

$\beta_j$

為水平

的效應，於是我們可以表示每一個具體的水平值為

$\mu_{ij}=\mu+\alpha_i+\beta_j+(\mu_{ij}-\mu_{i.}-\mu_{.j}+\mu)$

我們定義最後括號的一項為

$\gamma_{ij}$

，它被稱為是

兩個水平的

互動效應

。

因為

$\alpha,\beta$

它們是

效應

，所以他們的和為0，同理也可以推出，

$\gamma_{ij}$

在任何一個維度求和的結果也為0。

同理，如果我們要檢驗這個模型，我們需要討論的就是三個方差：效應A，效應B，效應A和B的交叉部分。寫出來就是

$\begin{cases} H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ H_{11}:\mathrm{not~all~zero} \end{cases}$

$\begin{cases} H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ H_{12}:\mathrm{not~all~zero} \end{cases}$

$\begin{cases} H_{03}:\gamma_{11}=\gamma_{12}=\cdots=\gamma_{rs}=0\\ H_{13}:\mathrm{not~all~zero} \end{cases}$

同樣的，我們給平均值一些記號

$\bar X=\frac1{rst}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}$

$\bar X_{ij.}=\frac1t\sum\limits_{k=1}^{t}X_{ijk}$

$\bar X_{i..}=\frac1{st}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}$

$\bar X_{.j.}=\frac1{rt}\sum\limits_{i=1}^{r}\sum\limits_{k=1}^{t}X_{ijk}$

引入

總變差

$S_T=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^s\sum\limits_{k=1}^{t}(X_{ijk}-\bar X)^2$

。

根據同樣的平方和的分解的思想，我們有

$S_T=S_E+S_A+S_B+S_{A\times B}$

$S_E=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}(X_{ijk}-\bar X_{ij.})^2$

$S_A=st\sum\limits_{i=1}^{r}(\bar X_{i..}-\bar X)^2,S_B=rt\sum\limits_{j=1}^{s}(\bar X_{.j.}-\bar X)^2$

$S_{A \times B}=t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(\bar X_{ij.}-\bar X_{i..}-\bar X_{.j.} + \bar X)^2$

最後一個我們稱為

互動效應平方和

。

這一節的公式比較多，但是絕大部分的內容都是和上一部分的單因素試驗方差分析相似的。只是多了證明的難度，因此我們不加證明的直接給出這一系列的結論，可能會看上去不太舒服。因此請大家一定要與上面對比來看。

我們繼續說，我們還可以得到以下的結果

$E(\frac{S_E}{rs(t-1)})=\sigma^2,E(\frac{S_A}{r-1})=\sigma^2+\frac{st\sum\limits_{i=1}^{r}\alpha_i^2}{r-1},E(\frac{S_B}{s-1})=\sigma^2+\frac{rt\sum\limits_{j=1}^{s}\beta_j^2}{s-1}$

$E(\frac{S_{A\times B}}{(r-1)(s-1)})=\sigma^2+\frac{t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\gamma_{ij}^2}{(r-1)(s-1)}$

這裡用到的結論是它們的自由度為

$F(S_T)=rst-1,F(S_E)=rs(t-1),F(S_A)=r-1,F(S_B)=s-1,F(S_{A \times B})=(r-1)(s-1)$

（這裡的F是自己隨便用的，因為英文為degree of freedom，然後D被用了……）

因為這裡實驗資料有

組，對於

來說，只有一個限定條件

$\bar X=\frac1{rst}\sum\limits_{i=1}^r\sum\limits_{j=1}^s\sum\limits_{k=1}^{t}X_{ijk}$

，因此自由度只需要減去1。而對於

，由於有rs個分組，因此自由度需要減去rs（聯想一下上一部分），至於

，它們的自由度是需要根據其對應的分組組數減去一進行計算。而對於交叉項，把單獨項的自由度相乘起來即可。

對於他們的期望，一樣可以透過單因素的方差試驗得到的結果去進行類比。

顯然，

的結果是穩定的，但是其餘都不是，因此我們可以透過一樣的分析思路，得到我們的三個假設的拒絕域

$\begin{cases} H_{01}:F_A=\frac{S_A/(r-1)}{S_E/(rs(t-1))}\ge F_\alpha(r-1,rs(t-1))\\ H_{02}:F_B=\frac{S_B/(s-1)}{S_E/(rs(t-1))} \ge F_\alpha(s-1,rs(t-1))\\ H_{03}:F_{A \times B}=\frac{S_{A\times B}/((r-1)(s-1))}{S_E/(rs(t-1))} \ge F_\alpha((r-1)(s-1),rs(t-1)) \end{cases}$

這些均方和常用以下的公式進行手工計算。

$\begin{cases} S_T=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}^2-\frac{T_{...}^2}{rst} \\ S_A=\frac1{st}\sum\limits_{i=1}^{r}T_{i..}^2-\frac{T_{...}^2}{rst} \\ S_B=\frac1{rt}\sum\limits_{j=1}^{s}T_{.j.}^2-\frac{T_{...}^2}{rst} \\ S_{A \times B} = (\frac1t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}T_{ij}^2-\frac{T_{...}^2}{rst})-S_A-S_B \\ S_E=S_T-S_A-S_B-S_{A \times B} \end{cases}$

同樣的，我們只需要根據上一部分，理解這一部分的公式就可以了，不需要鑽研它的具體過程。

雙因素無重複試驗的方差分析

我相信兩個大例子分析完了之後，大家就應該有了意識：

方差分析中需要的F檢驗的兩個相關引數只與對應方差的自由度有關

。在這個例子中，我們假設沒有互動作用（否則誤差和互動作用沒有辦法分離開，就沒有辦法分析這個例子），那麼自由度也要稍微做一些修改。

在這個例子中，

也就容易得到兩個假設檢驗（去掉了互動作用）的拒絕域，這裡請大家自己補全。

小結

本節的公式巨多……但是請大家不用擔心，如果只是使用R語言，那麼完全不需要去背下來，但是要對裡面的思想，自由度這些數值，概念有個印象，否則看懂R語言的輸出結果，可能還需要一點功夫。

下一節我們會對迴歸分析的相關內容做一個梳理引入。

因為本節實在是有點噁心，我就不求讚了，求個收藏好了。

——————————————————廣告————————————————————

想要更多方面的知識分享嗎？歡迎關注專欄：一個大學生的日常筆記。我鼓勵和我相似的同志們投稿於此，增加專欄的多元性，讓更多相似的求知者受益~

小蜜蜂問答

小蜜蜂問答

統計學筆記|數理統計知識點概要（6）

推薦文章

小蜜蜂問答

小蜜蜂問答

統計學筆記|數理統計知識點概要（6）

相關文章

光遇地獄試煉怎麼過？

何懼道阻且長看我華夏兒郎什麼意思？

可以化為整式方程的分式方程是分式方程麼？

該如何理解物理學中的重整化方法？

推薦文章