比賽心路駕駛行為預測駕駛風險（初賽終）

11-05

開篇：期盼已久的複賽（6月29號）開始了，到7月17日0點結束，讓我來代替沒有進入複賽的小朋友們，繼續體驗過程吧。我儘可能記錄自己的感受、比賽過程、比賽心得（不違反簽署保密協議的前提下），我盡量為大家結了初賽的這個「疙瘩」。

※文章發布時決賽已經結束了，「開篇」是6月末寫得，保持了原樣未修改。就讓我們倒序展示一下結果吧。

決賽結果（Top2）

視頻來源：平安官方sohu號，雖然決賽已經過一段時間了，還是要感謝隊友不懈努力！特別是在7天的現場決賽，隊伍成員人數少，絕對不佔優勢。

2018平安產險數據建模大賽(UBI) https://www.zhihu.com/video/1023974648354144256

複賽環境（水果拍攝）

感謝DF和平安賽會組織者細心安排，雖然現場賽是「加賽」，每個人都在認真對待。

平安金融大廈，決賽首日

辦理臨時入門證的隊伍

比賽會議室（5個隊伍一個會議室）

戰鬥5天的地方，乾淨、整潔

會議室窗外（遠處大山是香港）

決賽答辯現場

上面內容和賽題關係不大，只是為了讓大家看看比賽過程。

初賽數據

我從最初開始說吧，這次採用問答形式，讓你逐漸理解我的整個思考過程。

問1：駕駛數據是什麼？

答1：記錄駕駛的海拔、方向、速度、電話、駕駛時間狀態等的數據，可以把他們轉化成，a.駕駛環境因素（行駛路線、地形）b.個人用車習慣因素（用車頻度、時長）c.時間因素（早晚高峰、夜間、疲勞駕駛）d.注意力干擾因素（電話、情緒）

問2：Y = 0（沒有賠償）的用戶，一定比Y > 0（存在理賠）風險大嗎？

答2：不一定，因為賠償和每次駕駛風險，不是一一對等的，比如，這人熬夜打游（我們數據里沒有疲勞度，舉例而已啊），他開車出去一定有事故（產生賠償）嗎？結論只能是有可能，但不是絕對有事故（賠償）。

問3：Y = 0 的用戶，就是沒有風險嗎？

答3：不是、因為只要車在路上行駛，就存在風險，只是在危險的駕駛行為時，你出事故的責任風險就大（你賠錢給別人），例如：你開車（A）總要轉彎吧，如果你正常左轉時有人走神，最終碰撞，從交通責任來看，你全責（轉彎讓直行）！從數據理解，如果事故只要你沒有責任，那麼系統里，你就是 Y = 0的好用戶。

轉彎讓直行

※所以自己開車出門時，會規劃最少的左轉，就是有事故，也不是我的責任：）

問4：這些方向數據、海拔數據如何使用呢？初賽是1min的數據，就沒有價值嗎？

答4：每種數據都有其用處，例如：1min數據對是否起伏就很好，太細（5s）的數據會起伏幅度變得不是那麼明顯，甚至出現過於"敏感"的情況。 1min的數據可以很好的描述：坡道的風險 > 平地，蜿蜒路況的風險 > 直路這些問題。但1min的數據就沒有辦法判斷急加速、急減速了，所以速度相對其他（方向、路況）特徵重要度變得弱化了。

問5：按你說的數據如何使用呢？

答5：駕駛數據不同於貓狗分類，說白了，數據都是「灰色"和"黑色」，只是表現的風險表徵強弱不同而已。舉個例子吧：

你眼裡的數據，邊界涇渭分明

我眼中的數據，邊界混沌不清

結論：Y > 0的數據相對 Y = 0 的數據，風險特徵更為顯著。

Gini係數的脆弱性

得分如何計算，在比賽中也非常重要，如果你不能理解得分機制，你就無法控制你的模型，不能對一些結論做出合理解釋。從這個出發點，我儘可能的模擬了Gini的結果。

刻意破壞百分之一的數據，得分下降75%

保費可視化

我做了個假釋，如果我們能夠得到一個最優結果，這就就有了Gini左側的圖，0.96444得分。我只是讓最優排序的結果，最後1%（300條左右）的數據錯誤，讓它安排在最前面，得分爆降75%。有了這個結論，我想你就不難理解為什麼調整一個參數，分數變化巨大。。。。其實只要你分錯一個重要的樣本，你的得分都會「劇烈震蕩」！

物盡其用

我比賽沒有是用大量的模型融合得分方法，我在想盡一切辦法讓單模型（XGB）充分利用數據。既然數據是灰色的，Gini分數如此脆弱，我們就應該充分利用這些特性，提高模型的好成績（得分）。模型主要分成兩部分：

1）使用全體數據訓練，讓數據基本有序（灰度數據太多，使局部數據排序不正確，無論怎麼調整，因為數據特點問題，所以很難達到好的效果）

2）使用部分數據訓練，這部分數據風險明確，局部二次預測（Y > 0 的數據，它表徵非常明確）

模型關係

通過這樣方法，就可以很好的解決比賽中遇到的問題。

總結

雖然第一次參加比賽，結果超出了自己的預期，我原來的目標就是進入複賽，比賽過程雖然漫長、艱辛。但是自己感觸頗多，每次提出新想法，多數都被結果來盆冷水。。。。也許你看到的是獲獎的獎金，其實我們也是無數次苦悶中挺過來得，堅持就會有結果！加油吧！平安賽再見。。。

別忘點贊哦，我分享知識不收費！

凌藍風 2018-09-14

《原創作品-請勿轉載》

比賽心路 駕駛行為預測駕駛風險（初賽終）

比賽心路駕駛行為預測駕駛風險（初賽終）