為理解下面的知識需要先區分好下面幾個概念:

總體均值:u

總體標準差:σ

樣本均值:u‘

樣本標準差:σ‘

樣本中符合條件A的佔比:p’

是樣本大小:n

總體大小:N

2. 瞭解點估計

抽取一個樣本,得到樣本均值u’,樣本標準差σ‘,樣本中符合條件A的佔比p’,這些樣本引數都是對總體的一個點估計。

3. 標準誤差SE

抽取n個樣本,分別計算其均值u‘1,u’2,。。。將這些值進行機率分佈視覺化;

這些值的均值E(u‘)=總體均值u;

這個分佈的標準差即標準誤差SE,滿足:

一文搞懂點估計、置信區間、假設檢驗

有限總體,且n/N>0.05時:

一文搞懂點估計、置信區間、假設檢驗

SE為標準誤差,是為了計算樣本均值和總體均值的偏離程度

上面結果始終成立,和樣本容量,樣本分佈無關

3. 樣本均值的分佈

總體滿足正態分佈時,所抽取樣本的均值分佈始終符合正態分佈(樣本大小為1時,也滿足);

總體不滿足正態分佈,但是單個樣本大小>=30時,樣本均值的分佈符合正態分佈;(中心極限定理)

當嚴重偏態或出現異常點時,樣本大小需達到50;離散情況下,依賴於單個樣本佔總體的比例;

所以無論怎麼樣,我們都能使得樣本均值的分佈滿足正態分佈,樣本均值的分佈形式會受限於樣本的大小,但是E(u’)和SE大小不受限

4. 研究以上問題的實際意義

抽取多個樣本,樣本的均值會呈正態分佈,依據總體的分佈來確定樣本的大小,從而使得樣本分佈呈正態分佈。

透過以上,我們知道:E(u‘)=總體均值u=正態分佈最高點的x值;標準誤差SE的計算見上

抽取單個樣本,得到樣本均值u‘,是對總體均值u的一個點估計,那這個估計是準確的嗎,估計的準確率是多少,即點估計值落在總體周圍的機率是多少,根據此可以給一個範圍[總體均值-a,總體均值+a],求點估計落在該範圍內的機率。

一文搞懂點估計、置信區間、假設檢驗

以上是對總體均值進行點估計的方法,估計總體比率的方法類似,E(p’)=p,p’分佈的標準差計算如下:

一文搞懂點估計、置信區間、假設檢驗

當np>=5且n(1-p)>=5時,p’的分佈滿足正態分佈,但p‘均值和標準差的大小始終和上圖一樣,不受樣本大小影響。

p‘點估計的實際應用過程和上面均值的估計相同。

5. 區間估計:點估計+-邊際誤差,得到對總體引數的估計

上面點估計的應用是先給定抽樣想要得到的範圍[u-a,u+a],去估計抽樣落在該範圍的機率;區間估計是逆方向,先抽樣得到u’,目標是得到一個範圍[u’-a,u‘+a],這個範圍不一定能包含總體均值,但可以給一個機率P,P為範圍[u’-a,u‘+a]包含總體均值的機率,這個機率即為置信水平,得到的區間為置信區間。

置信水平的原理如下圖,當樣本均值的分佈滿足正態分佈時(根據總體的分佈來確定樣本的大小從而使得樣本均值分佈呈正態分佈),95%的樣本均值落在距離總體均值1。96*SE的距離範圍內,該範圍內所有的值在其+-1。96*SE的範圍內一定包含總體均值,那麼給到任意一個樣本,計算其均值,該均值有95%的機率落在距離總體均值1。96*SE的範圍內,則該均值+-1。96*SE一定有95%的機率包含總體均值,這裡的95%即為置信水平,是常用的置信水平。這裡的1。96其實是(1-95%)/2=0。025查閱正態分佈表得到的z值。

一文搞懂點估計、置信區間、假設檢驗

因此置信區間=樣本均值u’+-z*SE

總體標準差σ已知的情況下計算置信區間

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

總體標準差σ未知的情況下,用t分佈,查自由度=n-1和0。025(α/2)對應的t值,其中s為樣本標準差

當樣本數量大於102,即自由度大於100時,可以直接用z正態分佈表,對應t分佈∞一行

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

總之,總體標準差已知,用正態分佈;總體標準差未知,用t分佈

計算置信區間時,樣本的大小確定:大部分情況下,n>=30已經足夠大,總體存在嚴重異常點或者偏斜嚴重時,樣本需>=50;總體不服從正態但是大致對稱,樣本>=15可以得到很好的估計;總體是正態分佈,樣本容量為多少都可以。

當np>=5且n(1-p)>=5時,p’的分佈滿足正態分佈,且總體比率的置信區間估計如下:

一文搞懂點估計、置信區間、假設檢驗

6. 假設檢驗:

兩類錯誤:第一類,H0為真卻拒絕;第二類,H0為假卻拒絕

一文搞懂點估計、置信區間、假設檢驗

假設檢驗的特點

原假設與備擇假設是一對完全互斥事件,一項檢驗中,原假設和備擇假設有且只有一項成立。

”=”總是在原假設上,即時原假設存在方向,實際檢驗時只需要針對取”=”時的情形。

由於

備擇假設是研究者希望透過收集證據予以支援的假設

,一般情況下,建立假設時,先建立備擇假設再確定原假設。

假設是基於研究者的角度和立場出發,同樣的問題因立場不同會有完全不同方向甚至反向的假設,但是在值的驗證上“=”號一定是放在原假設上。

https://

blog。csdn。net/sanqima/a

rticle/details/51307443

假設檢驗的目的在於否定H0,先假設H0正確,當結果表明H0錯誤,則接受H1;當結果無法表明H0錯誤,則說沒有足夠的證據說明H0是錯誤的。

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

雙峰檢驗時,假設u=u0,設立α,小於α是很難辦到的,但是出現了說明u=u0是錯誤的,注意是雙峰檢驗是α/2

單鋒檢驗時,以下側檢驗為例,先假設H0是正確的,且u

假設檢驗的基本步驟

背景:政府公佈新排放標準,平均值<20ppm(百萬分之一)

問題:檢驗公司是否符合排放標準;零假設,不符合排放標準,u>=20ppm,備選假設,符合排放標準,u<20ppm;

證據:

df=pd。Series([u1,u2,u3,u4。。。])建立樣本;

抽取的樣本數量為10,為小樣本,sns。distplot(dataSer)觀察擬合線,總體標準差未知,採用t分佈;

df。mean();df。std()計算平均值和標準差,這裡預設除以的是n-1;

計算p值:p值是在假定零假設成立前提下,得到樣本平均值的機率,在樣本符合t分佈的前提下,計算p值的步驟為:

計算標準誤差SE=樣本標準差s/根號(樣本大小n)

t=(樣本值-總體均值)/SE,標準樣本均值距離總體均值多少個SE

查詢t表格得到p

QuickCalcs可以協助計算p值

自動計算:t,p=stats。ttest_1samp(df,20總體均值),這裡的p是雙尾p,單尾為p/2

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

判斷標準並作出結論:

單尾檢驗(左尾OR右尾);

雙尾檢驗:兩端各佔α/2;

得到的p值為在零假設成立的前提下得到樣本均值的機率,即u>=20ppm的機率為p

一文搞懂點估計、置信區間、假設檢驗

7. 效應量

效應量是指由於因素引起的差別,是衡量處理效應大小的指標。與顯著性檢驗不同,這些指標不受樣本容量影響。它表示不同處理下的總體均值之間差異的大小,可以在不同研究之間進行比較。平均值差異、方差分析解釋比例、迴歸分析解釋比例需要用效應量描述。效應量不受樣本容量的影響。當樣本容量大得到顯著時,有必要報告效應量大小。

一文搞懂點估計、置信區間、假設檢驗

一文搞懂點估計、置信區間、假設檢驗

8.推論統計分析報告

描述統計分析:樣本的基本情況,平均值,標準差……

推論統計分析

假設檢驗

置信區間

效應量

資料分析報告