關於屬性資料MSA中Kappa的對話—

前言

：在7月29日本號發表了拙作《我為什麼反對在屬性資料MSA中用Kappa分析（上）》以後，圖老師認真閱讀了拙作，指出了文章的不足之處，並提出了一些值得探討的問題。針對圖老師所提意見，我核對了原文，並仔細閱讀了AIAG的《測量系統分析參考手冊》第四版（以下簡稱手冊），發現所發文章確實存在諸多不足，也有一些遺漏，因此於8月5日進行了修改。除此之外，我們還進行了很有趣的討論，對比了手冊中屬性資料MSA部分與minitab、六西格瑪的不同之處，並與詹志煒老師進行了交流，澄清了一些概念，達成了一些共識。

我們共同認為，有必要把討論的內容發表出來，以引起更廣泛的討論，獲得更大的共識。為此特將我們討論的內容整理發表，供大家參考，也歡迎大家提出不同意見。

圖老師：

2019。7。30 18：02

張老師好，今天得空再次拜讀Kappa大作，有以下疑問想和您核實，以下均基於AIAG的MSA手冊第4版本。

1。 Kappa法也就是針對屬性類資料測量系統研究的假設風險分析法，可用時評價考慮2個維度：

一是一致性，也就是各評價人之間的一致程度［和基準值無關］。用Cohen的Kappa來評價，通用的比例規則是Kappa>0。75表示有良好的一致性。

二是有效性，（您的表格翻譯成了一致性，請核實）由於一致性只能反應各評價人之間的一致程度，但不能反應區分好壞零件的能力，所以引入相對於零件參考值的有效性。

在評估有效性之前，同樣使用Kappa來確定每個評價者和參考之間的一致性，如果滿足上面的要求，則繼續分析評估。

2。手冊中給出的有效性評價表作為指南僅供參考，實際是否接受要取決於顧客的要求，組織對當前過程情況的瞭解程度，樣本的選擇。測量系統的變差來源以及錯誤決定對後續過程和顧客的影響。

3。上面的2是英文原版的意思。很搞笑的是，正版的英文和中文在這裡有著巨大的分歧，內容和意思完全不一樣。這裡不作評論。

4。不可否認，Kappa法研究的過程中，取樣的結構範圍和數量對於結果幾乎有著決定性的引向作用，如果不瞭解過程和研究的目的，難以得到預期的結果。

5。關於您發現的Kappa和“一致率”結論不一的案例，可否提供類似手冊表格中的原始模擬資料，我用不同於Minitab的軟體來分析一下，說不定有另外的發現可供您參考。

張自達的答覆

2019。8。1 17：33

非常感謝圖老師如此認真地看了我的文章，並對其中的不足提出了自己的意見。

在發這篇文章時，我心裡也不是特別有底，畢竟其中的觀點與大多數人的認知是相反的，你的意見會使文章的觀點更加完善，也會更有指導意義。

在迴應你的7個問題之前，我想先說一下寫這篇文章的初衷。我的想法很簡單，就是要簡化。隨著五大工具以及六西格瑪越來越普及，工具也變得越來越複雜，做出判斷的依據也越來越多，以至於當多個判據出現矛盾時，人們會無所適從。在MSA現有的判據中有的直接明瞭，如%P/T、一致性、有效性，有些則物理含義並不那麼清晰，如ndc、Kappa。可笑的是，%R&R和ndc本來是一回事，但因為是兩個指標，結果判據上出現不一致，這也是我反對ndc的原因。一致性、有效性與Kappa之間的問題類似（雖然原理上不同），過多類似的判據會造成人們認識上的混亂。我更擔心的是在實際使用中將判據僵化，變成死的教條。我們用泥巴造了一座神像，然後我們對這塊泥巴頂禮膜拜，言聽計從。走得太遠，我們不知道為什麼出發。

來啊！拜神啊！

基於以上考慮，我強烈建議將判據簡化，丟掉那些含義不明的判據，這樣做更有現實意義。

下面討論圖老師提出的問題：

1。你說的對，我忽略了一致性和有效性兩個概念的差異，這個會在下一篇裡指出來。檢驗員一致性反過來就是minitab中的mixed，如果是重複測2次，可以用Cohen‘ Kappa，如果是3次及以上，就要用到Fleiss’ Kappa了。假設是2次，我大致算了一下，0。75的Kappa值所對應的一致性範圍越為0。87～1，這個範圍比較寬，跨越了好與不好的界限。一致性是有效性的基礎，如果一致性是0。87，那麼有效性肯定不會好，所以這個0。75我持保留意見。如果取0。8，覆蓋的範圍在0。9～1，這個還可以接受。

這張圖發文的時候漏掉了，看來還是發急了，這張圖說的是在不同樣本組合下，一致率從0。5～1對應的Kappa值，看來要重發一次了。

有效性的計算方法沒什麼特別的，就是將標準與評價放在一起計算Fleiss‘ Kappa，在計算中標準和評價一視同仁，沒什麼特別優待。我沒有特別計算2次評價加1次標準計算的Kappa值，而是計算了3個人6次評價加1次標準共7次評價的Kappa值。假設樣本結構是合格/不合格為25/25，在不同的有效率下Kappa的表現是這樣的

可以看到0。75的Kappa值基本覆蓋了0。6～0。8的有效率。

2。我同意，其實我就是怕僵化運用才提出這種比較極端的意見的。

3。建議圖老師親自翻譯一版，我可以打打下手。

4。完全同意，計量資料又何嘗不是呢，單單一個抽樣就出現了各種千奇百怪的方法，微信群裡時不時就要對此來一番唇槍舌戰，可見其流毒之廣。

5。這是我的短板，我是用很笨的方法來做模擬的，就是窮舉各種不一致的情況，比如50個樣6次評價只有1個樣不一致有5種情況，有2個樣不一致是就有25種錯誤組合，我是一一計算各種情況的Kappa值，然後選出最大值和最小值來獲得其範圍，如果能夠程式設計來計算的話，那就太方便了。

微信中的討論

張自達的答覆（包括圖老師對部分內容的修改）

2019。8。4 22：07

圖老師，這幾天我把手冊屬性測量系統分析部分仔細看了，手冊裡的分析方法與minitab（包括紅皮書、藍皮書）有很大差異，下面我直接使用手冊中的例子做一個對比，理解不到位的地方請你批評指正。

在進入對比之前，我不得不說手冊的中譯本簡直太差了，滿分100分的話，我給59分，其它部分可以給60分算是勉強及格，仔細琢磨一下可以理解，胡亂翻譯的那一段要扣掉1分。我還沒對比全部手冊，說不定其它部分也有扣分項。

兩種方法的對比

1。分析物件有差別

手冊的分析物件實質還是連續資料，在連續資料的基礎上來分析類似通止規這樣的量儀，所研究的物件與minitab相比要窄不少，我在六西格瑪中學習到的以及在minitab中屬性資料還包括分類資料（包括兩分類和多分類），這些資料不一定是將連續資料離散化，如在客服電話中將客戶來電區分為投訴、諮詢、業務辦理等類別，客戶投訴應該轉發給哪些部門來處理等，在這裡判斷的準確性對處理的效率有很重要的影響。還有一類是順序資料，比如給電影評星、給工程師評級等等。分析物件的不同帶來的分析方法上的差異。

2。分析方法上的差異

1） minitab首先分析檢驗員自身的一致性，即對同一個部件的三次判斷是否一致，因為是3次測量，所以無法計算Cohen’s Kappa，而只能計算Fleiss‘ Kappa。

這個計算我一般解釋為重複性，即相同的人測量相同的東西所表現出的差異，重複性不好，後面的分析就不可能好了。

手冊對此也有計算，見下面的貼圖，但沒有計算Kappa值。

2）每個檢驗員的有效性

minitab結果

這個表給出了每個檢驗員的誤檢率和漏檢率，混合是重複性不好的數量。表中還給出了每個檢驗員的Kappa值，可以看到，即使有效性不是很好，Kappa值依然很高。

手冊也給出了類似的表

手冊假設檢驗給出的結論是三個檢驗員之間沒有顯著差異，因為置信區間是相交的。

對此我有兩點疑問：

a.雖然手冊中的案例採用隨機抽樣，但在實踐中，大量的實驗採用非隨機抽樣，比如零件外觀檢驗，實驗中會特意挑選樣件，而不是隨機抽樣，此時計算置信區間就沒有意義了。手冊裡也提到了所謂的“鹹魚樣本”。

b.置信區間是基於二項分佈建立的，如果樣本量較小的話，置信區間會很寬，其參考意義也就不大了。

因此我建議在屬性資料MSA中放棄基於置信區間的假設檢驗。

在手冊中，下面表格中的錯誤率（應翻譯為漏判率，即壞件被判為好件）和錯誤報警率（應翻譯為誤判率，即好件被判為壞件）的計算也與minitab不同。手冊中錯誤率是某檢驗員的錯誤次數/總測量次數，如A，“1”（合格）部件有34個，測量102次，判斷錯誤5次，因此誤檢率為4。9%。“0”（不合格）部件有16個，測量48次，錯誤3個，因此漏檢率為3/48=6。3%。

手冊翻譯要再扣1分，表格中的資料寫錯了。