最近有想法做這樣一個研究,即無監督的貝葉斯異常檢測模型,事情的起因是這樣的,無論在金融風控領域、保險領域或各種其他領域,其實都有在做反欺詐的一些事情,但是反欺詐真的有那麼好做嗎,或者說各家的反欺詐真的做的很好嗎?其實是存疑的,大部分還是透過一些規則或者說是一些手段去進行反欺詐的工作,其中還存在一些原始或者說匪夷所思手段,在我們專業風控人員看來有些“愚蠢”,但是後續細細想來,可能愚蠢的是我們。

舉個例子,在以前一家小貸公司上班時,他們是怎麼做反欺詐的呢:就是專門有一部分人員去到各大薅羊毛的微信群、QQ群或者擼貸微信群、QQ群去看自家產品有沒有被黑產或者羊毛黨給盯上。這種方式在我們看來是非常低效的一種方式,也非常的不智慧,但實際上這是一種非常有效的方式,並能夠做出及時的反應。另一種方式是會設定一些規則去做反欺詐,比如排除掉信貸存在黑名單的人或者失信被執行人等等,當然這樣的方式也非常的有效;還有一些規則是透過業務邏輯或欺詐團伙的手段總結出的規則,比如某一段時間某一個IP地址存在大量申請,可能也是存在異常的。實際上每家的反欺詐差不多都是這種類似的模式,但需要明確的是欺詐是無法趕盡殺絕的,且欺詐的手段也在日新月異的變化,所以從反欺詐的角度看一方面可以提高欺詐的成本,因為對於任何一種行為都需要考慮個人利益最大化,如果欺詐需要付出很大的成本,相應的欺詐門檻也變高了;另一種是提高反欺詐的檢測手段。

在提高反欺詐檢測手段的角度,可能有些人會認為去構建一個反欺詐模型,透過模型去預測可能存在欺詐的申請。但是讀了

反欺詐的道與術

的回答,讓我對反欺詐又有了新的認識,實際上在之前的工作中也是這樣去操作的,反欺詐=規則+策略+模型+知識圖譜這樣的方式,但是模型真的有效嗎?其實不見得,這裡的模型大部分是為了模型而模型,但是由於欺詐的特殊性,手段的多樣性,變化的高頻性,模型並不是一種有效的檢測方式,或者說有監督的模型並不是一種有效的檢測方式。

原因有以下幾點:

大部分情況下,資料是沒有Label的,各種有監督方法沒有用武之地。

區分噪音和異常點難度較大。

多種欺詐手段混合使得區分更加困難

所以多多去探索一些無監督的方法,在結合規則以及行業的專家經驗,可能會做到更好的反欺詐效果,並且知識圖譜在做反欺詐時也會有很多的便利之處。

一種最優的反欺詐解決方案應該是規則+機器學習+知識圖譜這樣的方式,在規則方面可以研究auto-rule learning,在基於學習到的規則進行篩選出合理且符合業務要求的規則;模型方面可以探索一些無監督的模型或特定場景的有監督學習;知識圖譜方面可以構造更多的傳統方式無法表示的反欺詐特徵,並能提供更好的可解釋性。終極的反欺詐方案應該是一種高度自動化或者僅僅需要少量人力參與的方案,包括如何自動學習規則,如何自動構造特徵並預測,如何自動進行無監督學習並轉成有監督,如何自動構建知識圖譜等等。