查全率和真正例率是一回事嗎?深空智慧2018-02-28 12:59:14

查全率 R = TP/(TP+FN) 其實也就是我們平時常說的召回率,TP的全稱是True Positive,FN的全稱是False Negative。主要用來評估模型預測出的結果中,預測正確的樣本數佔全部樣本中該類的比例。舉例來說,比如有100個球,30個白球和70個黑球,模型的目標是預測一個球是白球。假設模型透過訓練後進行測試,預測結果是40個白球,60個黑球。但預測的40個白球中,只有24個是真正的白球(TP),剩下16個是把黑球誤識別成了白球,那麼在60個黑球中還有6個白球被誤識別成了黑球(FN)。則查全率(召回率)根據公式可以這樣計算: 24/(24+6)=0。8*100% = 80%。

真正例率和查全率的計算方式相同,但應用的場景不同。我們知道模型預測的結果中,其不同類別的機率和為1,如果是二分類的話,預設以0。5機率作為類別分類的標準。但通常我們會透過調整分類節點的閾值來最佳化模型的結果,比如當prediction>0。6的時候認為是正例,否則是負例。那麼如何選擇閾值呢,就需要用真正例率來觀察了。一般會透過繪製ROC曲線來選取最合理的閾值。

查全率和真正例率是一回事嗎?

所以,查全率可以理解為一個確定好的靜態的模型評估指標。而真正例率是一個動態的用於調節引數或分析模型結果過程中的一個衡量指標。

查全率和真正例率是一回事嗎?論智2018-04-13 21:29:45

看周志華為機器學習,第30頁有查全率R = TP/(TP + FN),第33頁有真正例率TPR = TP/(TP + FN)。

從公式可以看出,這兩個是一回事,或者說,同一個概念的兩個不同名稱。

分類問題的統計指標比較多,而且同一個指標往往有多個名稱,因此很容易搞混。我建議你用一個例子將所有這些指標串聯起來記憶,這樣不容易混淆。

比如:防毒軟體檢測病毒。

正常檔案,防毒軟體也認為是正常檔案。這稱為

真陰性(True Negative,TN)

病毒檔案,防毒軟體也認為是病毒。這稱為

真陽性(True Positive,TP)

正常檔案,防毒軟體卻認為是病毒(誤殺)。這稱為

假陰性(False Negative,FN)

病毒檔案,防毒軟體卻認為是正常檔案(漏殺)。這稱為

假陽性(False Positive, FP)

真正例率(TPR)

,或者叫

真陽性率

,也叫

命中率(hit rate)

召回(recall)

。TP/(TP+FN)。TPR越高,防毒軟體漏殺的病毒檔案就越少。

假陽性率(FPR)

,也叫

誤檢率(fall-out)

。FP/(FP+TN)。FPR越高,防毒軟體誤殺的正常檔案就越多。