員工離職情況分析
透過kaggle平臺釋出的IBM員工流失情況資料,研究企業離職員工的特徵及影響員工離職的因素。
一、資料處理
26個欄位如下:
員工編號,是否離職(因變數)
個人情況
類欄位:年齡、性別、婚姻狀況、教育程度、總工作年限
職位發展
類:職級、距上次升職年數、職位滿意度、在當前公司年限、在當前崗位年限、工作投入度、上一年培訓次數
薪資
類:月收入、加薪比例、股票期權水平
人際關係
:關係滿意度、與當前經理共事年數
工作壓力
:部門、職位、通勤距離、出差頻率、是否加班、工作生活平衡度、環境滿意度。
將薪資、在當前公司年限、在當前崗位年限、通勤距離等連續型資料進行分段處理。
如將工資劃分為:<6K,6-10K,10-14K,14-18K,18K以上這5段;
將在當前公司年限,在當前崗位年限等資料,劃分為0-2年、3-5年、5-10年、10年以上。
按職業生涯階段,將年齡劃分為24歲以下,25-44歲,45歲以上。
二、資料描述
資料共1470條資料,即包含1470名職工資訊,其中離職人數237人。
三、視覺化圖形分析離職員工特點
因為欄位數較多,所以先使用決策樹模型建模,獲得預測變數重要性,從而再選擇欄位做視覺化分析。
Chaid決策樹建模:
獲得是否加班、薪資期權水平、職級等10個欄位。
使用tableau製作視覺化圖表。
1、個人因素
可見:24歲以下職工離職率最高,為39。18%(計算方式:24歲以下離職人數/24歲以下員工總數),45歲以上職工離職率最低,這也與職業生涯發展理論相吻合,24歲以下正處於職業探索階段,45歲以上處於職業維持階段;單身狀態下職工離職率最高,離婚狀態下離職率最低。
2、薪資因素
股票期權水平為0且月收入小於6K的員工離職率最高,佔該類員工的29。73%。
3、職位發展
在當前崗位年限0-2年,距上次升職年數0-2年的組中,離職人數143人,超過總離職人數一半;其次是在當前崗位年限3-5年,距上次升職年數0-2年的組中,離職人數為30人。
職級為1時,職位滿意度越高,離職人數越少;其他職級固定情況下,職位滿意度和離職率關係不固定。
4、人際關係
對於與當前經理工作3-5年的,離職率隨關係滿意度提高而降低。而與當前經理共事年數0-2年的離職率對關係滿意度並不敏感,都在一個較高的數值。
透過下圖,我們可得知,主要受“在當前公司工作年數”影響,離職率與在當前公司工作年數成反比。
4、工作壓力
不加班情況下,通勤距離長短對離職率基本無影響,且離職率較低;加班情況下,離職率隨通勤距離增加而增加。
四、資料建模
1、離職員工特徵
只考慮離職員工資訊。按部門分割資料,再使用K-means聚類,分析各部門離職員工特點。
(1)研究與發展部門
共同特徵:距上次升職年數0-2年,與當前經理共事年數0-2年,月收入<6K。
具體還有以下三類特點:
(2)人力資源部
(3)銷售部門
2、Logistics二元迴歸
24歲及以下離職風險是45歲以上的2。377倍。
職級為1的離職風險是職級為5的4。855倍。
職位滿意度為1的離職風險是職位滿意度為4的2。643倍。
3、利用生存函式分析
(1)考慮職級對離職的影響
不同的職級對員工在職時間存在顯著差異。
(2)考慮月收入對員工在職時間影響
P<0。05,不同月收入的員工的在職時間有顯著差異。
(3)考慮職位滿意度
不同職位滿意度對員工在職時間影響顯著;同時透過生存函式圖,可知職位滿意度的=對在職時間影響程度沒有上面職級和月收入明顯。
(4)考慮不同性別對通勤距離的敏感度
女性相對男性,對通勤距離更敏感。
在公司10年以內,通勤距離對在職時間影響較不顯著;10年後,通勤距離對在職時間影響較顯著。但也不是按通勤距離越短,在職時間越長的規律,所以這其中還是有很多其他因素在影響。
(5)考慮不同性別和不同婚姻狀態下
不同性別下:不同婚姻狀態對在職時間影響程度基本相同。
(6)考慮不同性別與出差頻率
可見,對於女性,出差頻率對在職時間的影響更顯著。
(7)考慮不同性別與加班
不同性別下,是否加班對在職時間影響程度基本相同。
五、總結
員工離職原因比較複雜,需要不斷探索分析,同時還要結合企業實際情況,才能更好地預測員工離職情況。