比賽心路 駕駛行為預測駕駛風險(初賽終)
開篇:期盼已久的複賽(6月29號)開始了,到7月17日0點結束,讓我來代替沒有進入複賽的小朋友們,繼續體驗過程吧。我儘可能記錄自己的感受、比賽過程、比賽心得(不違反簽署保密協議的前提下),我盡量為大家結了初賽的這個「疙瘩」。
※文章發布時決賽已經結束了,「開篇」是6月末寫得,保持了原樣未修改。就讓我們倒序展示一下結果吧。
- 決賽結果(Top2)
視頻來源:平安官方sohu號,雖然決賽已經過一段時間了,還是要感謝隊友不懈努力!特別是在7天的現場決賽,隊伍成員人數少,絕對不佔優勢。
2018平安產險數據建模大賽(UBI) https://www.zhihu.com/video/1023974648354144256- 複賽環境(水果拍攝)
感謝DF和平安賽會組織者細心安排,雖然現場賽是「加賽」,每個人都在認真對待。
上面內容和賽題關係不大,只是為了讓大家看看比賽過程。
- 初賽數據
我從最初開始說吧,這次採用問答形式,讓你逐漸理解我的整個思考過程。
問1:駕駛數據是什麼?
答1:記錄駕駛的海拔、方向、速度、電話、駕駛時間狀態等的數據,可以把他們轉化成,a.駕駛環境因素(行駛路線、地形)b.個人用車習慣因素(用車頻度、時長)c.時間因素(早晚高峰、夜間、疲勞駕駛)d.注意力干擾因素(電話、情緒)
問2:Y = 0(沒有賠償)的用戶,一定比Y > 0(存在理賠)風險大嗎?
答2:不一定,因為賠償和每次駕駛風險,不是一一對等的,比如,這人熬夜打游(我們數據里沒有疲勞度,舉例而已啊),他開車出去一定有事故(產生賠償)嗎?結論只能是有可能,但不是絕對有事故(賠償)。
問3:Y = 0 的用戶,就是沒有風險嗎?
答3:不是、因為只要車在路上行駛,就存在風險,只是在危險的駕駛行為時,你出事故的責任風險就大(你賠錢給別人),例如:你開車(A)總要轉彎吧,如果你正常左轉時有人走神,最終碰撞,從交通責任來看,你全責(轉彎讓直行)!從數據理解,如果事故只要你沒有責任,那麼系統里,你就是 Y = 0的好用戶。
※所以自己開車出門時,會規劃最少的左轉,就是有事故,也不是我的責任:)
問4:這些方向數據、海拔數據如何使用呢?初賽是1min的數據,就沒有價值嗎?
答4:每種數據都有其用處,例如:1min數據對是否起伏就很好,太細(5s)的數據會起伏幅度變得不是那麼明顯,甚至出現過於"敏感"的情況。 1min的數據可以很好的描述: 坡道的風險 > 平地, 蜿蜒路況的風險 > 直路 這些問題。 但1min的數據就沒有辦法判斷急加速、急減速了,所以速度相對其他(方向、路況)特徵重要度變得弱化了。
問5:按你說的數據如何使用呢?
答5:駕駛數據不同於貓狗分類,說白了,數據都是「灰色"和"黑色」,只是表現的風險表徵強弱不同而已。舉個例子吧:
結論:Y > 0的數據相對 Y = 0 的數據,風險特徵更為顯著。
- Gini係數的脆弱性
得分如何計算,在比賽中也非常重要,如果你不能理解得分機制,你就無法控制你的模型,不能對一些結論做出合理解釋。從這個出發點,我儘可能的模擬了Gini的結果。
我做了個假釋,如果我們能夠得到一個最優結果,這就就有了Gini左側的圖,0.96444得分。我只是讓最優排序的結果,最後1%(300條左右)的數據錯誤,讓它安排在最前面,得分爆降75%。有了這個結論,我想你就不難理解為什麼調整一個參數,分數變化巨大。。。。其實只要你分錯一個重要的 樣本,你的得分都會 「劇烈震蕩」!
- 物盡其用
我比賽沒有是用大量的模型融合得分方法,我在想盡一切辦法讓單模型(XGB)充分利用數據。既然數據是灰色的,Gini分數如此脆弱,我們就應該充分利用這些特性,提高模型的好成績(得分)。模型主要分成兩部分:
1)使用全體數據訓練,讓數據基本有序(灰度數據太多,使局部數據排序不正確,無論怎麼調整,因為數據特點問題,所以很難達到好的效果)
2)使用部分數據訓練, 這部分數據風險明確,局部二次預測(Y > 0 的數據,它表徵非常明確)
通過這樣方法,就可以很好的解決比賽中遇到的問題。
- 總結
雖然第一次參加比賽,結果超出了自己的預期,我原來的目標就是進入複賽,比賽過程雖然漫長、艱辛。 但是 自己感觸頗多, 每次提出新想法,多數都被結果 來盆冷水。。。。也許你看到的是獲獎的獎金,其實我們也是無數次苦悶中挺過來得,堅持就會有結果!加油吧!平安賽再見。。。
別忘點贊哦,我分享知識不收費!
凌藍風 2018-09-14
《原創作品-請勿轉載》
推薦閱讀:
TAG:機器學習 | 深度學習(DeepLearning) | UBI |