統計分析貫穿於臨床研究之中,在研究開始之初,就需要根據研究目的計算樣本量。這一點在隨機臨床試驗中尤為重要,如果納入樣本量大於所需樣本量,浪費人力物力財力,尤其不符合倫理準則。如果納入樣本量小於所需樣本量,統計分析時把握度(Power of test)太低,得不到有效結論。資料收集之後,治療干預措施等是否有效也需要深入的統計分析才能得到答案。因此,統計分析是臨床研究的重要組成部分。

1。基線資料比較

臨床研究病人一般是分成研究組(處理)和對照組,有時候也會有多個研究(處理)組。這些組別間患者的基線資料比較所用統計學方法和基礎研究常用統計分析方法差不多,兩組之間的比較用

t

檢驗、Wilcoxon秩和檢驗、卡方檢驗或費舍爾精確檢驗;多組之間的比較用方差分析,Kruskal-Wallis檢驗和卡方檢驗。(例項3。5)

例項3。5

研究者開展一項橫斷面調查研究分析肝癌的危險因素,收集病人的年齡、性別、身高、體重、是否HBV感染、是否HCV感染、是否酗酒(分為極少、偶爾[一月100 ml相當於50度的白酒]、經常[一週100 ml相當於50度的白酒]、頻繁[一天100 ml相當於50度的白酒])、直系親屬是否有人患肝癌等資訊,分析肝癌和非肝癌人群這些基本資訊是否有差異?研究物件的年齡、身高、體重等是資料變數,一般是正態分佈,如果方差齊性,比較用t檢驗;兩組研究物件在酗酒之間的差異按調查算是等級變數,採用Wilcoxon秩和檢驗;研究物件性別、是否病毒感染及直系親屬是否有人患肝癌是二分類變數,可以使用卡方檢驗。如果研究者想將研究人群細化為正常、肝纖維化、肝硬化、肝癌組來分析,此時就是多組的分析比較了,研究物件的年齡、身高、體重等是一般是正態分佈的資料變數,如果方差齊性,可以使用方差分析,如果有差異,進一步使用Post hoc分析究竟是哪兩組之間有差異。多組之間的酗酒情況使用Kruskal-Wallis檢驗;而多組之間病毒感染及直系親屬遺傳情況使用卡方分析。

2。相關性分析和迴歸分析

臨床研究中患者的某些生化指標或疾病其他指標之間可能會具有一定的相關性,如何確定兩組資料之間是否具有相關性呢?可以使用如下相關性分析工具。如果兩組都是連續性資料,可以使用Pearson相關分析,等級資料則使用Spearmen等級相關分析。相關分析會得到一個相關係數

r

和顯著性差異

P

值,在對分析結果進行解釋時除了看

P

值,還要看

r

值和樣本量。即使P值小於0。05,在樣本量和

r

絕對值比較小的時候也需要謹慎解釋。

迴歸分析(Regression analysis)和相關性分析使用的方法是一樣的,不同之處在於對分析結果的解釋。相關性分析分析的兩組變數是平等的,不存在因果關係,一般用於橫斷面研究或其他無法確定因果關係的研究。迴歸分析是由因及果的過程,兩個變數是因果關係,多用於有時間軸向、事情發生有明顯先後順序的研究。如果是分析多個變數和一個變數的因果關係,那就是多元迴歸分析(Multiple regression analysis)。

有一種特殊的迴歸分析被廣泛應用於臨床醫學統計,那就是Logistic迴歸分析(Logistic regression),它的結局只有兩種情況(生死、有無、好壞等),是多元迴歸分析的一種特殊情況,常用於疾病危險因素分析。

相關分析例子見例項3。6。

例項3。6

研究者想研究乙肝患者肝臟病理分級和血清ALT水平是否相關,血清HBV表面抗原水平是否和血清ALT水平相關,應如何分析?肝臟病理分級是等級資料,所以用Spearmen等級相關分析;而血清HBV表面抗原和血清ALT都是資料變數,先將HBV表面抗原水平對數轉換後,再用Pearson相關分析。

3。接收者操作特徵曲線(又稱受試者工作特徵曲線,Receiver operating characteristic curve, ROC曲線)

臨床診斷性實驗的質量通常用敏感度和特異度來衡量。在同一研究中,如果取不同的臨界值,則可得到不同的敏感度和特異度,將這些點在以敏感度為Y軸,以(1-特異度) 為X軸的座標上標出並連成線,就可得到一條ROC曲線。ROC曲線是臨床診斷分析實驗中最常用的一種分析方法,也常用於一些預測因素的預後準確性分析。ROC曲線對診斷的準確性提供了直觀的視覺印象,曲線上的每一點代表了特定診斷方法隨臨界值(Cut-off值)變化時的敏感性與特異性,而曲線下面積反映診斷方法的準確情況:曲線下面積越大,診斷準確性越高。

在ROC曲線上,最靠近座標圖左上方的點為敏感性和特異性均較高的臨界值,一般是用於診斷的最佳臨界值。

ROC曲線下的面積值(Area under curve, AUC)一般在1。0和0。5之間,在AUC>0。5的情況下,AUC越接近於1,說明診斷準確性越高。一般認為AUC在 0。5~0。7時有較低準確性,AUC在0。7~0。9時有一定準確性,AUC在0。9以上時有較高準確性。 需要注意的是,很多統計軟體在計算AUC時還會給出一個

P

值,它反映待測診斷方法的AUC和AUC=0。5之間是否有統計學差異。(例項3。7)

例項3。7

研究者開展一項前瞻性研究,分析某種lncRNA對肝癌的診斷準確性。研究者需要收集患者血液中這種特定lncRNA的水平,同時透過傳統經典方法診斷肝癌作為金標準。透過將lncRNA水平和患者是否肝癌進行ROC分析,就可以得到這一種lncRNA 的AUC,同時也可以計算得出用於診斷分析的lncRNA 的臨界值。同樣,如果想分析某種lncRNA對肝癌預後的影響,整個分析過程與前面差不多,只是結局換成死亡或是存活。同樣可以根據是否存活進行ROC分析,得到AUC,確定這種lncRNA對預後是否有預測價值。

4。生存分析

很多臨床研究的最終結局指標都是生存和死亡,這一結局指標和時間密切相關,也受隨訪等其他因素的影響。如果想研究不同干預方法對疾病結局的影響,一般使用生存分析(Survival analysis)。生存分析是將事情發生的結局和發生這種結局所經歷的時間綜合起來進行分析的一種方法,它可以充分利用所收集到的資料,更加準確的評價和比較隨訪資料,因而能夠更為全面地反映某種治療或干預措施的效果。

生存分析中最基本的一點是計算生存時間,有完全資料(Complete data)和截尾資料(Censored data)兩種,完全資料是隨訪期間觀察到明確的結局事件(死於所研究疾病),生存時間確切,截尾資料是隨訪期間沒有觀察到明確的結局事件,截尾的原因可能是失訪、死於其它疾病或隨訪結束時病人尚存活等,生存時間不明確。生存分析主要包括描述生存過程、生存過程比較和生存時間影響預測因素分析。

描述生存過程一般是計算出各時間點的生存率,繪製生存曲線(隨訪時間作為橫座標,生存率作為縱座標),一般使用乘積極限法(Kaplan-Meier法)或壽命表法(Life table method),前者適用於樣本量較小、終點或截點被準確記錄的資料,主要用於未分組生存資料,後者適用於樣本量較大、生存時間分段記錄的資料。(例項3。8)

生存過程比較(單因素生存分析)一般用Log-rank檢驗,用於分析兩條或多條生存曲線是否有統計學差異,其應用條件是各條生存曲線不能交叉,如果出現交叉,提示可能存在混雜因素,需使用分層分析或是多因素分析方法來校正混雜因素。

生存時間影響預測因素分析一般用Cox比例風險迴歸模型(Cox’s proportional hazards regression model,簡稱Cox迴歸模型),其應用條件是分析因素對生存時間的作用不隨時間變化(比例風險假定),如果某種治療手術隨著觀察年限延長治療效果越差,這樣的手術因素就不能納入模型分析。

例項3。8

某科研工作者收集20例神經膠質瘤患者比較AB兩種療法的療效,治療的生存時間(周)如下:A組123471012232830B組351015202536374042兩組的生存曲線就可以用Kaplan-Meier法繪製。

5。樣本量計算

臨床試驗在試驗設計階段就需要確定研究所需的病例數,即樣本量(Sample size)。理論上,驗證某一干預措施與對照之間的差異,樣本量越大,試驗結果越接近於真實值,即結果越可靠。但由於資源的限制和倫理原因,臨床試驗的樣本量不可能做到無限大,因此需要確定統計學顯著性檢驗要求的最適樣本量。樣本量計算時需要考慮四個引數:檢驗水準α、檢驗效能(1-β)、容許誤差σ和檢驗的差值δ。其中α一般定義為0。05,也可定為0。01,β一般取0。2、0。1或0。05,σ和δ可以根據預實驗或文獻報道來設定,但是δ的設定需要有臨床實際意義,比如驗證一種新的降壓藥是否有效,如果設定δ為1 mmHg就沒有什麼臨床實際意義,不可取。這四個引數設定越小,所需樣本量越大。確定好這四個引數後,就可以使用相關軟體如PASS或線上工具如

http://

powerandsamplesize。com/

Calculators/

按照相應的試驗設計型別計算樣本量。(例項3。9)

例項3。9

某研究者設計一個等效性臨床隨機對照研究,欲比較A藥(一種已知價廉且安全的新藥)和B藥(傳統藥)改善貧血的療效。據以往經驗和預試驗,A藥可增加紅細胞1。2′1012/L,B藥可增加紅細胞2。2′1012/L,s=1。8′1012/L,如何確定樣本量?假設兩組病人數相同,我們取a=0。05,b=0。20,s=1。8′1012/L,δ=2。2′1012/L-1。2′1012/L=1。0′1012/L,透過相應的軟體或是線上工具計算,如果不考慮脫落(Drop-out)或失訪(Loss to follow-up),所需樣本量是每組51人總計102人。

我們用表格總結了常用的統計分析方法及注意事項(表3。1)和不同資料所對應的常用統計分析方法(表3。2)。

表3.1 常用統計分析方法總結

表3.2 不同資料對應的常用統計分析方法

臨床研究常用統計方法