在臨床研究統計分析思路與統計圖表系列的首篇文章中[1],我們將臨床研究的統計分析思路歸納為三部分:(1)描述基線資訊;(2)估計效應大小;(3)補充敏感性分析。基線資訊作為臨床研究論文結果中不可或缺的重要內容,其統計分析方法和展現形式也值得臨床研究者重視。本文將結合研究例項闡述基線資訊分析所涉及的統計方法和統計圖表。

1 基線資訊的概念與內容

“基線”並無嚴格的定義,Segen醫學詞典給臨床研究語境中基線(baseline)的解釋是:基線是研究人群在前瞻性研究中最開始時的健康狀況,是研究物件在接受試驗組或對照組干預措施前的“0”時刻。藥物的安全性和有效性可從基線資料的變化中評估,基線資料組間分佈的差異或對結果評估造成偏倚[2]。通常所謂的“基線”實則相對“隨訪”而言,專用於前瞻性研究設計,不過其它研究設計型別也可用“基線“泛指研究人群的基本情況。基線資訊包括兩方面的內容:(1)研究人群的入選排除過程。先用入選標準粗略圈定分析人群,再用排除標準修正分析人群;(2)研究人群基線特徵的描述與比較。基線特徵常常包括社會人口學特徵、臨床特徵、實驗室檢查指標、以及疾病史和用藥史等內容。

2 基線資訊的展示形式

研究人群的入選排除情況,常用的展示形式是研究人群流程圖,即文章中的“圖1”。不同研究設計型別在具體的入排流程上有所不同,此前的文章中已有提及,也展示過相應例項 [1],此處不再贅述。研究人群基線特徵的描述與比較常用基線表格展示,即文章中的“表1”。 “表1”在具體展示時,依據研究情形的不同,有不同的形式:干預性研究中,按實驗組和對照組分組展示,如PLANTO、CHANCE等大型隨機對照臨床試驗[3,4];觀察性研究中,按不同的暴露因素分組,如CNSR II 研究中評估急性腦卒中合併非瓣膜房顫患者出院使用華法令的影響因素時按是否房顫分組去描述、比較基線資訊[5], 或按暴露因素的不同水平分組展示,如CKB研究組在研究肥胖和卒中發生的關係時,基線表格裡按暴露因素BMI的18。0、20。5、23。0、25。0、27。5、30。0六個切點分成七組[6]。上述兩種思維均為從因到果的邏輯順序,適用於前瞻性的研究設計。若為回顧性研究設計,則按從果到因的逆向邏輯順序,依據結局分“病例”和“對照”組,如Fox等在探討冠心病與兒童時期卒中危險因素關係時,以是否患冠心病分為病例組和對照組來描述和比較基線資訊[7]。若不分組,可將所有研究人群作為單組描述,但這種情形較為少見,如跟著指南走(GWTG)的臺灣登記研究[8]。

3 基線資訊的統計方法

研究人群的入選排除,只需統計每個排除標準的頻數和百分比即可,但應採用層次排除法,以避免因不同的排除標準統計的人數有交叉致使合計排除人數與實際排除人數不一致。所謂層次排除法即分層次去統計每一個排除標準所排除的人數和百分比。如NRMI 2研究中研究急性心梗病人的急救醫療服務與後續護理質量時,其人群排除過程即採用了層次排除法[9]。

基線特徵的描述與比較,需依據變數的不同特性(如連續變數、分類變數,正態、非正態),組別數(兩組、三組及以上)選擇相應的描述形式和檢驗方法。連續變數採用“均數±標準差 ”或者 “中位數(四分位數間距)”描述,兩組時採用t檢驗或Wilcoxon秩和檢驗,三組時採用方差分析或Kruskal-Wallis檢驗。分類變數採用“頻數(百分比)”描述,卡方檢驗評估組間均衡性。傳統的假設檢驗採用P值評估協變數的組間均衡性,但大樣本時容易出現假陽性,且採用P值評估無法給出量化的差異,因此大樣本的隨機對照臨床試驗直接看均數和百分比,並不報告組間比較的P值,轉而採用標化的組間差值[10]或者Hodges-Lehmann估計數[11]評估兩組間均數或中位數的差異。具體的統計方法詳見表1。

臨床研究中基線資訊的統計分析與統計圖表

標化的組間差值和Hodges-Lehmann估計數目前國內的研究者使用較少,在此做一簡要介紹。連續變數的標化組間差值計算公式如下:

臨床研究中基線資訊的統計分析與統計圖表

Xe和Xne分別表示暴露組和非暴露某連續變數的均數,Se和Sne分別表示暴露組和非暴露組某連續變數的標準差。分類變數的標化組間差值計算公式如下:

臨床研究中基線資訊的統計分析與統計圖表

其中,Pe和Pne分別表示暴露組和非暴露某分類變數某一水平的組內百分佔比。標化差值的絕對值超過10相當於傳統假設檢驗的P<0。05,可認為兩組間協變數的差異具有統計學意義,小於10可認為組間均衡。Hodges-Lehmann估計數的想法簡單,即計算兩組資料配對後差值的中位數。其中Yj,Xj分別表示兩組某變數的觀測值,n1,n2表示兩組的觀測個數。

臨床研究中基線資訊的統計分析與統計圖表

4 常用的統計分析工具

研究人群入選流程圖的繪製,可先借助統計軟體,按層次排除法統計出各排除標準排除的人數和百分比,再借助傳統的流程圖繪製軟體(如Visio) 或者辦公軟體(MS Office/Power point),甚至一些小巧的線上工具如ProcessON(

https://www。

processon。com/

)、

http://

draw。io(https://www。dra

w。io/)

等繪製流程圖,再匯出合適格式的圖片。

基線特徵的描述與比較,藉助傳統統計分析軟體(如SPSS、SAS、R、Stata)的預設選單或者模組基本上均可實現,但在操作難易度、便利性、可重複性、程式碼留痕等方面各有優劣。表 2 簡要例舉了SAS裡常用的基線表格統計分析工具。

臨床研究中基線資訊的統計分析與統計圖表

此外,還可藉助一些基於上述軟體的二次開發工具包更方便快捷的獲得基線統計表。如SAS軟體平臺裡可藉助筆者開發的基線表格宏程式%ggBaseline一鍵式自動生成適合學術期刊的RTF或PDF格式的統計表格[12]。%ggBaseline生成的統計表格,涵蓋單組、多組,用P值或者用標化的組間差值/Hodges-Lehmann估計數評估組間均衡性等多種形式,具體樣式如圖1所示。其它軟體平臺,如R的qwraps2軟體包裡面的summary_table() 函式亦可嘗試[13]。

臨床研究中基線資訊的統計分析與統計圖表

臨床研究基線資訊是研究結果的重要部分,是研究人群社會人口學特徵的基本刻畫,是同類研究結果互相比較的基礎,同時也是對隨機對照研究隨機化過程的一種評價方法,此外,基線資訊組間均衡性的比較也為後續多因素模型校正的效應評估提供參考依據。

參考文獻:

[1]谷鴻秋。臨床研究統計分析思路與統計圖表概述[J]中國循證心血管病醫學雜誌,2018,10(7):827-30。

[2]baseline。(n。d。) Segen‘s Medical Dictionary。 [EB/OL] (2011)[2018-08-18]。

https://

medical-dictionary。thefreedictionary。com

/baseline

[3]Wallentin L,Becker RC,Budaj A,etal。 Ticagrelor versus clopidogrel inpatients with acute coronary syndromes[J]。 N Engl J Med , 2009,361(11):1045-57。

。。。

[13] DeWitt P, Bennett T。 qwraps2: Quick Wraps 2。 R packageversion 0。3。0,

https://

CRAN。R-project。org/pack

age=qwraps2

招聘:

有希望來事業單位的,

想和我一起玩SAS的,

想做臨床研究的

流統/生物統計/統計 專業,

已畢業(19年6月畢業亦可)的童鞋,

請戳下面網址,檢視招聘廣告。

http://

ncrcnd。org。cn/plus/view

。php?aid=712