統計學筆記|數理統計知識點概要(6)
大家好,從數學建模競賽中逐漸抽身的我,繼續對數理統計的知識點作梳理。
上一節中我們對方差分析的內容進行了引入,這一節將繼續對方差分析的理論介紹,如果篇幅允許,我們會繼續介紹迴歸分析的內容。
提供之前筆記的目錄:
統計學筆記|數理統計知識點概要(1)
統計學筆記|數理統計知識點概要(2)
統計學筆記|數理統計知識點概要(3)
統計學筆記|數理統計知識點概要(4)
統計學筆記|數理統計知識點概要(5)
下面我們開始正文
目錄
單因素試驗的方差分析(下)
的統計學特性
假設檢驗問題的拒絕域
引數估計
雙因素有重複試驗的方差分析
雙因素無重複試驗的方差分析
小結
的統計學特性
我們在上一節的最後引入了平方和的分解,我們再次強調一遍這個式子。
其中,
這個式子中,
表示每一個試驗資料與所有的均值的差,也就反映了一個大的總體的所有資料的差異大小(也可以說是總體上不穩定因素的大小,因為方差就是用來描述資料集的不穩定性的)。
表示的是每一個試驗資料在一個水平上的資料差異大小(不穩定性大小),
表示的是每一個水平在總體上的資料差異大小,因為
表示的每一個水平的誤差,所以叫
誤差平方和
,而
表示的是水平之間的誤差,我們在上一節定義了它為效應,所以叫
效應平方和
。它們的和就是
總變差
。
將這個式子按照維度作了拆解之後,問題就會容易很多,我們繼續往下看
首先我們將這個式子拆出來寫成n個水平的誤差之和。
注意到,每一個水平上的誤差之和,是其樣本方差的
倍(對於第j個水平而言),所以我們根據定理二
,我們可以得到
結合我們之前的假設,各
相互獨立,因此式子中的各平方和相互獨立(不要問我這個性質怎麼證)。由可加性,我們可以將每一個分量式子的自由度加起來,而左邊加起來就是
,因此我們有
。這個式子的意思是,
滿足一個 #FormatImgID_20# 分佈,並且它的自由度是在資料個數的基礎上去掉分類的組數(水平個數)
。
我們來看看
,這個玩意相對友好一些,因為相當於之前已經做過了一次求均值的步驟,在這個式子中只是把每一個水平的效應平方
乘上了每一個水平的資料組數
而已。也就是說f它實際上是s個變數
的平方和。這個式子的分析難度超出了我們的範圍,因此我們暫時跳過,如果我找到了相關的證明材料會再補上。
我們用分析
的方法代替,我們注意到
其中這些平方的期望的值可以利用
得到,具體的我在第2節有過介紹。
因此,如果
為真,那麼所有的效應值為0,因此可以得到
。進一步可以證明的是
相互獨立,但是我也不知道具體咋證,所以我們就略過它好了……
假設檢驗問題的拒絕域
我們從期望入手,探討這個問題。
首先我們可以得到,如果
為真,那麼有
,也就是說,我們可以得到
,但是我們在上一節分析了,無論如何,
。因此兩個統計量均為
的無偏估計。這句話表明了,這兩個統計量均和
有千絲萬縷的聯絡,因此需要做的方差分析就是要比較兩個統計量的方差是否相等。所以根據我們之前文章介紹的定理,顯然
分佈是我們所需要考慮的。因此我們的檢驗統計量自然為
。另外,我們根據上一部分推出的
,我們可以看出,如果
不真,那麼就會出現效應值,那麼這個檢驗統計量會變大。因此根據這些分析,我們可以得到我們的拒絕域
。
這兩個統計量我們稱作
均方
。
在實際的生活中,我們計算
常使用如下的簡便方法
其中
因為在R中我們只需要幾行命令就可以完成這個工作,所以我們不再展示具體的細節。大家有個印象就可以了。
引數估計
我們容易得到,
分別為
的無偏估計。透過此還容易得到
為
的無偏估計。
我們需要這些的目的是,當我們發現每一個水平之間有差異的時候,我們需要知道差異的大小,因此對於任意第
項,我們往往需要對
做一個區間估計。我們根據之前我們介紹的抽樣分佈定理,以及
我們可以得到
。它的置信水平為
的置信區間為
雙因素有重複試驗的方差分析
雙因素試驗的反差分析會更加的麻煩,我們按照和單因素方差分析相同的分析思路,先畫出它的可能的資料形式。
在這個表格中,
為兩個因素,對於這兩組因素,我們每一個具體的因素值,設定t組試驗。那麼在下標
中,r代表第一個因素的第r個水平,s代表第二個因素的第s個水平,t代表試驗的第t組資料。上面這個表也就自然展現了這些資料的形式,可以幫助理解。
因為這裡是雙因素,因此這裡的每一個具體的水平值都需要參考兩個因素的指標,因此它的標記就要改成
。
我們用和單因素方差分析相同的思想,我們可以得到下面的記號
同樣的,我們還需要對於水平值中不同的影響做進一步的拆解分析,所以又有了如下記號。
針對此,我們稱
為總平均,
為水平
的效應,而
為水平
的效應,於是我們可以表示每一個具體的水平值為
我們定義最後括號的一項為
,它被稱為是
兩個水平的
互動效應
。
因為
它們是
效應
,所以他們的和為0,同理也可以推出,
在任何一個維度求和的結果也為0。
同理,如果我們要檢驗這個模型,我們需要討論的就是三個方差:效應A,效應B,效應A和B的交叉部分。寫出來就是
同樣的,我們給平均值一些記號
引入
總變差
。
根據同樣的平方和的分解的思想,我們有
最後一個我們稱為
互動效應平方和
。
這一節的公式比較多,但是絕大部分的內容都是和上一部分的單因素試驗方差分析相似的。只是多了證明的難度,因此我們不加證明的直接給出這一系列的結論,可能會看上去不太舒服。因此請大家一定要與上面對比來看。
我們繼續說,我們還可以得到以下的結果
這裡用到的結論是它們的自由度為
(這裡的F是自己隨便用的,因為英文為degree of freedom,然後D被用了……)
因為這裡實驗資料有
組,對於
來說,只有一個限定條件
,因此自由度只需要減去1。而對於
,由於有rs個分組,因此自由度需要減去rs(聯想一下上一部分),至於
,它們的自由度是需要根據其對應的分組組數減去一進行計算。而對於交叉項,把單獨項的自由度相乘起來即可。
對於他們的期望,一樣可以透過單因素的方差試驗得到的結果去進行類比。
顯然,
的結果是穩定的,但是其餘都不是,因此我們可以透過一樣的分析思路,得到我們的三個假設的拒絕域
這些均方和常用以下的公式進行手工計算。
同樣的,我們只需要根據上一部分,理解這一部分的公式就可以了,不需要鑽研它的具體過程。
雙因素無重複試驗的方差分析
我相信兩個大例子分析完了之後,大家就應該有了意識:
方差分析中需要的F檢驗的兩個相關引數只與對應方差的自由度有關
。在這個例子中,我們假設沒有互動作用(否則誤差和互動作用沒有辦法分離開,就沒有辦法分析這個例子),那麼自由度也要稍微做一些修改。
在這個例子中,
也就容易得到兩個假設檢驗(去掉了互動作用)的拒絕域,這裡請大家自己補全。
小結
本節的公式巨多……但是請大家不用擔心,如果只是使用R語言,那麼完全不需要去背下來,但是要對裡面的思想,自由度這些數值,概念有個印象,否則看懂R語言的輸出結果,可能還需要一點功夫。
下一節我們會對迴歸分析的相關內容做一個梳理引入。
因為本節實在是有點噁心,我就不求讚了,求個收藏好了。
——————————————————廣告————————————————————
想要更多方面的知識分享嗎?歡迎關注專欄:一個大學生的日常筆記。我鼓勵和我相似的同志們投稿於此,增加專欄的多元性,讓更多相似的求知者受益~