前言

:在7月29日本號發表了拙作《我為什麼反對在屬性資料MSA中用Kappa分析(上)》以後,圖老師認真閱讀了拙作,指出了文章的不足之處,並提出了一些值得探討的問題。針對圖老師所提意見,我核對了原文,並仔細閱讀了AIAG的《測量系統分析參考手冊》第四版(以下簡稱手冊),發現所發文章確實存在諸多不足,也有一些遺漏,因此於8月5日進行了修改。除此之外,我們還進行了很有趣的討論,對比了手冊中屬性資料MSA部分與minitab、六西格瑪的不同之處,並與詹志煒老師進行了交流,澄清了一些概念,達成了一些共識。

我們共同認為,有必要把討論的內容發表出來,以引起更廣泛的討論,獲得更大的共識。為此特將我們討論的內容整理發表,供大家參考,也歡迎大家提出不同意見。

圖老師:

2019。7。30 18:02

張老師好, 今天得空再次拜讀Kappa大作, 有以下疑問想和您核實, 以下均基於AIAG的MSA手冊第4版本。

1。 Kappa法也就是針對屬性類資料測量系統研究的假設風險分析法, 可用時評價考慮2個維度:

一是一致性, 也就是各評價人之間的一致程度[和基準值無關]。 用Cohen的Kappa來評價, 通用的比例規則是Kappa>0。75表示有良好的一致性。

二是有效性,(您的表格翻譯成了一致性, 請核實)由於一致性只能反應各評價人之間的一致程度, 但不能反應區分好壞零件的能力, 所以引入相對於零件參考值的有效性。

在評估有效性之前, 同樣使用Kappa來確定每個評價者和參考之間的一致性, 如果滿足上面的要求, 則繼續分析評估。

2。 手冊中給出的有效性評價表作為指南僅供參考,實際是否接受要取決於顧客的要求, 組織對當前過程情況的瞭解程度,樣本的選擇。測量系統的變差來源以及錯誤決定對後續過程和顧客的影響。

3。 上面的2是英文原版的意思。很搞笑的是,正版的英文和中文在這裡有著巨大的分歧,內容和意思完全不一樣。這裡不作評論。

4。不可否認,Kappa法研究的過程中,取樣的結構範圍和數量對於結果幾乎有著決定性的引向作用,如果不瞭解過程和研究的目的,難以得到預期的結果。

5。關於您發現的Kappa和“一致率”結論不一的案例, 可否提供類似手冊表格中的原始模擬資料, 我用不同於Minitab的軟體來分析一下, 說不定有另外的發現可供您參考。

張自達的答覆

2019。8。1 17:33

非常感謝圖老師如此認真地看了我的文章,並對其中的不足提出了自己的意見。

在發這篇文章時,我心裡也不是特別有底,畢竟其中的觀點與大多數人的認知是相反的,你的意見會使文章的觀點更加完善,也會更有指導意義。

在迴應你的7個問題之前,我想先說一下寫這篇文章的初衷。我的想法很簡單,就是要簡化。隨著五大工具以及六西格瑪越來越普及,工具也變得越來越複雜,做出判斷的依據也越來越多,以至於當多個判據出現矛盾時,人們會無所適從。在MSA現有的判據中有的直接明瞭,如%P/T、一致性、有效性,有些則物理含義並不那麼清晰,如ndc、Kappa。可笑的是,%R&R和ndc本來是一回事,但因為是兩個指標,結果判據上出現不一致,這也是我反對ndc的原因。一致性、有效性與Kappa之間的問題類似(雖然原理上不同),過多類似的判據會造成人們認識上的混亂。我更擔心的是在實際使用中將判據僵化,變成死的教條。我們用泥巴造了一座神像,然後我們對這塊泥巴頂禮膜拜,言聽計從。走得太遠,我們不知道為什麼出發。

關於屬性資料MSA中Kappa的對話——與圖老師的討論

來啊!拜神啊!

基於以上考慮,我強烈建議將判據簡化,丟掉那些含義不明的判據,這樣做更有現實意義。

下面討論圖老師提出的問題:

1。你說的對,我忽略了一致性和有效性兩個概念的差異,這個會在下一篇裡指出來。檢驗員一致性反過來就是minitab中的mixed,如果是重複測2次,可以用Cohen‘ Kappa,如果是3次及以上,就要用到Fleiss’ Kappa了。假設是2次,我大致算了一下,0。75的Kappa值所對應的一致性範圍越為0。87~1,這個範圍比較寬,跨越了好與不好的界限。一致性是有效性的基礎,如果一致性是0。87,那麼有效性肯定不會好,所以這個0。75我持保留意見。如果取0。8,覆蓋的範圍在0。9~1,這個還可以接受。

關於屬性資料MSA中Kappa的對話——與圖老師的討論

這張圖發文的時候漏掉了,看來還是發急了,這張圖說的是在不同樣本組合下,一致率從0。5~1對應的Kappa值,看來要重發一次了。

有效性的計算方法沒什麼特別的,就是將標準與評價放在一起計算Fleiss‘ Kappa,在計算中標準和評價一視同仁,沒什麼特別優待。我沒有特別計算2次評價加1次標準計算的Kappa值,而是計算了3個人6次評價加1次標準共7次評價的Kappa值。假設樣本結構是合格/不合格為25/25,在不同的有效率下Kappa的表現是這樣的

關於屬性資料MSA中Kappa的對話——與圖老師的討論

可以看到0。75的Kappa值基本覆蓋了0。6~0。8的有效率。

2。我同意,其實我就是怕僵化運用才提出這種比較極端的意見的。

3。建議圖老師親自翻譯一版,我可以打打下手。

4。完全同意,計量資料又何嘗不是呢,單單一個抽樣就出現了各種千奇百怪的方法,微信群裡時不時就要對此來一番唇槍舌戰,可見其流毒之廣。

5。這是我的短板,我是用很笨的方法來做模擬的,就是窮舉各種不一致的情況,比如50個樣6次評價只有1個樣不一致有5種情況,有2個樣不一致是就有25種錯誤組合,我是一一計算各種情況的Kappa值,然後選出最大值和最小值來獲得其範圍,如果能夠程式設計來計算的話,那就太方便了。

微信中的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

張自達的答覆(包括圖老師對部分內容的修改)

2019。8。4 22:07

圖老師,這幾天我把手冊屬性測量系統分析部分仔細看了,手冊裡的分析方法與minitab(包括紅皮書、藍皮書)有很大差異,下面我直接使用手冊中的例子做一個對比,理解不到位的地方請你批評指正。

在進入對比之前,我不得不說手冊的中譯本簡直太差了,滿分100分的話,我給59分,其它部分可以給60分算是勉強及格,仔細琢磨一下可以理解,胡亂翻譯的那一段要扣掉1分。我還沒對比全部手冊,說不定其它部分也有扣分項。

兩種方法的對比

1。分析物件有差別

手冊的分析物件實質還是連續資料,在連續資料的基礎上來分析類似通止規這樣的量儀,所研究的物件與minitab相比要窄不少,我在六西格瑪中學習到的以及在minitab中屬性資料還包括分類資料(包括兩分類和多分類),這些資料不一定是將連續資料離散化,如在客服電話中將客戶來電區分為投訴、諮詢、業務辦理等類別,客戶投訴應該轉發給哪些部門來處理等,在這裡判斷的準確性對處理的效率有很重要的影響。還有一類是順序資料,比如給電影評星、給工程師評級等等。分析物件的不同帶來的分析方法上的差異。

2。分析方法上的差異

1) minitab首先分析檢驗員自身的一致性,即對同一個部件的三次判斷是否一致,因為是3次測量,所以無法計算Cohen’s Kappa,而只能計算Fleiss‘ Kappa。

關於屬性資料MSA中Kappa的對話——與圖老師的討論

這個計算我一般解釋為重複性,即相同的人測量相同的東西所表現出的差異,重複性不好,後面的分析就不可能好了。

手冊對此也有計算,見下面的貼圖,但沒有計算Kappa值。

2)每個檢驗員的有效性

minitab結果

關於屬性資料MSA中Kappa的對話——與圖老師的討論

這個表給出了每個檢驗員的誤檢率和漏檢率,混合是重複性不好的數量。表中還給出了每個檢驗員的Kappa值,可以看到,即使有效性不是很好,Kappa值依然很高。

手冊也給出了類似的表

關於屬性資料MSA中Kappa的對話——與圖老師的討論

手冊假設檢驗給出的結論是三個檢驗員之間沒有顯著差異,因為置信區間是相交的。

對此我有兩點疑問:

a.雖然手冊中的案例採用隨機抽樣,但在實踐中,大量的實驗採用非隨機抽樣,比如零件外觀檢驗,實驗中會特意挑選樣件,而不是隨機抽樣,此時計算置信區間就沒有意義了。手冊裡也提到了所謂的“鹹魚樣本”。

b.置信區間是基於二項分佈建立的,如果樣本量較小的話,置信區間會很寬,其參考意義也就不大了。

因此我建議在屬性資料MSA中放棄基於置信區間的假設檢驗。

在手冊中,下面表格中的錯誤率(應翻譯為漏判率,即壞件被判為好件)和錯誤報警率(應翻譯為誤判率,即好件被判為壞件)的計算也與minitab不同。手冊中錯誤率是某檢驗員的錯誤次數/總測量次數,如A,“1”(合格)部件有34個,測量102次,判斷錯誤5次,因此誤檢率為4。9%。“0”(不合格)部件有16個,測量48次,錯誤3個,因此漏檢率為3/48=6。3%。

手冊翻譯要再扣1分,表格中的資料寫錯了。

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

3)檢驗員之間的一致性

在minitab中,用3個檢驗員判斷完全一致的部件數計算總體的一致性,可以理解為再現性。顯然3個檢驗員判斷錯誤的部件不完全一致,因此總的一致率比單個檢驗員的一致率低。另外每個部件的9次檢驗當作9個樣本來計算Kappa值。可以看出,即使一致率很低,但Kappa仍然比較高,這樣會讓人產生疑惑。

關於屬性資料MSA中Kappa的對話——與圖老師的討論

手冊因為只用Cohen’s Kappa,所以不能把3個檢驗員放到一起來計算,而只是做了兩兩一致性的分析。但兩兩一致性也有問題,因為兩個人每個部件有6次測量,手冊因此把每人三次測量按次一一對應,將50個樣3次測量變成150次測量組成下面的交叉表

關於屬性資料MSA中Kappa的對話——與圖老師的討論

採用這種方法計算出來的Kappa值如下表

關於屬性資料MSA中Kappa的對話——與圖老師的討論

看起來都還不錯,但我對此也有兩個疑問

a.這樣建立的交叉表很牽強,首先兩個檢驗員的每一次測量不一定存在對應關係,其次這個表可以理解為150個部件單次測量的一致性,這就造成了交叉表的含義不明。

b.兩兩對應的一致性仍然不能表達總體的一致性,因此計算出的Kappa值也沒有什麼意義。

4)總體有效性

minitab中總體有效性是總體一致性與標準的對比,本例的計算結果如下

關於屬性資料MSA中Kappa的對話——與圖老師的討論

手冊中對此沒有分析。

總的來說,我還是推薦minitab的分析方法,原因有2點:

a。 minitab適應性廣,不僅可以分析這個案例(1或0, ok或nok)的屬性類資料,還可以分析分類資料和分級順序類資料。

b。 minitab分析更全面客觀一些,當然我還是不建議用Kappa。

手冊中關於“偏倚”和“重複性”的分析在minitab中也能實現,我會另文介紹。

以上意見請圖老師及各位老師指正。

微信中的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

關於屬性資料MSA中Kappa的對話——與圖老師的討論

這是一次非常愉快的討論,不僅在於澄清了以前很模糊的概念,發現本本中存在的問題,更在於討論中良好的交流氛圍,在交流中獲得新知的愉悅感,這是單純看書體會不到的。

期待以後會有更多這樣的討論與交流。

請關注我的微信公眾號:張老師漫談六西格瑪