人工智慧反欺詐三部曲之三——關聯圖譜（上）

08-20

來自專欄大數據風控交流營地8 人贊了文章

之前介紹了異常檢測和設備指紋這兩種重要的機器學習反欺詐技術，這些技術在應對自動化和身份欺詐等場景中非常有效。在反欺詐的實戰中，欺詐者經常呈現出團伙作案的特徵。對於團伙欺詐，關聯圖譜是非常有效的手段，本文因此針對關聯圖譜的一些常用技術做一個簡單的介紹。

什麼是關聯圖譜？

在一般的機器學習的場景中，我們往往考察的是單一信息點的屬性。在反欺詐的場景中，還有另一類非常有效的信息，關聯信息。比如某用戶A的住址為X, 某用戶B的住址也是X, 用戶A和用戶B則通過地址X相互關聯。和一般數值型的信息不同，這種關聯表達的是一種結構型的信息。我們把這種關聯關係用圖表達出來，就構成了一張關聯圖譜，有時也稱為社交網路。在反欺詐場景中，團伙欺詐用常規的方法比較難發現，關聯圖譜或者說社交網路分析是發現欺詐團伙的重要方法。

社交網路方法的理論基礎是圖論。圖論作為一門新興學科，本身有很多分支，如幾何圖論，組合圖論，演算法圖論，隨機圖論，代數圖論等。計算機專業的圖論入門往往是從組合圖論開始的，而在人工智慧的領域裡代數圖論也有很重要的應用。

一個社交網路或者說圖是由節點和邊組成。在數學上用矩陣來表示節點間的鄰接關係，我們稱之為鄰接矩陣。這樣就把一個組合數學問題轉化成了一個矩陣或者說線性代數的問題。

圖一

根據圖的邊是否具有方向性，社交網路可分為有向圖和無向圖。圖一是一個無向圖的例子，圖二是一個有向圖。

圖二

根據邊的性質是否相同又可以分為同構網路和異構網路。相同類的邊和節點組成的網路稱為同構網路, 不同類的邊和節點組成的網路稱為異構網路。

描述社交網路的指標有很多，這面簡單的介紹幾類：關聯度，中心度和網路聚類。

第一類是關聯度指標。一度的關聯度即是指一個節點和多少個其他節點相鄰。如果是有向網路，還可細分為入度和出度，分別對應鏈入和鏈出的節點數。二度關聯度則是指介由一個中間節點相關聯的節點數。一度，二度關聯的關聯度在反欺詐的場景中的使用非常的廣泛。

另一類標誌節點重要性的指標是中心度（Centrality，有時也譯作中心性）: 比如介數中心度，特徵向量中心度等等。介數中心度度量對於一個節點X，多少其他節點對之間的最短路徑必須介由X。特徵向量中心度則可以認為是一度關聯度的一種延伸，當考慮一個節點的重要性時，不止考慮他有多少個鄰接節點，還要考慮這些鄰接節點的重要性。大名鼎鼎的PageRank實際上是特徵向量中心度的一個變種。

第三類指標是在網路上的聚類。物以類聚，人以群分，考察和一個節點有緊密聯繫的其他節點所構成聚類的共性，往往對研究該節點的特性有很強的指導性。

關聯圖譜分析的常用方法

圖三

關聯圖譜分析的方法有很多，主要分為兩大類：

一類是對網路特徵的直接提取，提取出中心度或一度二度關聯特徵可供上層規則系統或風險評估模型使用。

反欺詐對於實時決策的需求很高，這些指標都需要實時提取。其中一些指標，比如二度關聯度（second order degree）, 在一般的情況下計算複雜度是很高的。在動態圖的情形下，一般會採取一些近似的演算法並進行預計算。這裡解釋一下二度關聯。比如在網貸申請中，第一度是聯繫人，則與目標申請共享相同聯繫人的申請數目是一度關聯數，如果這些申請還和另外一些申請共享相同的住址，這些申請就和目標申請形成了二度關聯。

一些簡單的指標，比如一度關聯節點或二度關聯節點是否觸黑，在實際的反欺詐實踐中效果是非常顯著的。

案例分析

上海某金融企業，在離線分析中發現其申請數據中有系統性的冒用身份的欺詐行為。特徵分析表明，在一百多項關聯指標中，有四十餘項一度二度關聯指標的IV值在0.1到0.5之間，另有二十多項關聯指標IV值超過0.5。經過特徵篩選，最終二十多項IV值介於0.1到0.5之間的關聯指標進入風險模型，十餘項IV值大於0.5的指標進入規則。此類關聯指標實時進行計算，從而完成對欺詐行為的在線檢測。通過在線的檢測，該金融企業系統性的冒用身份的欺詐行為大大降低了。關於IV值的指標請參考本期《反欺詐建模實踐》。

圖四

第二類是對網路信息的深度挖掘。深度挖掘通常始於對連通子圖的計算，對於社交屬性較弱的金融應用，較大的連通子圖可能對欺詐網路有揭示作用。在此基礎上，還可以進行進一步展開社區的發現（Community Detection）。這裡面社區的發現不等同於連通子圖，匯聚性是一個更嚴格的指標。除此之外，通過欺詐比例傳播，或者說染色，將已知的欺詐標註擴散開來，從而獲得更多的欺詐標註，也是關聯圖譜的一個重要應用。

社區發現

我們先來看看社區發現（Community Detection）。社區發現就是通過機器學習的方法從關聯圖譜中自動發現群聚社區。社區發現既可以是半監督式的，即以一些少量的標註或標籤作為種子，也可以無監督式的。在一般情形下，社區並不一定意味著風險，但對於金融這種社交屬性很弱的場景來說，聚集往往意味著風險。從方法上來說，標籤傳播演算法是其中一類重要的社區發現方法。

圖五

標籤傳播演算法

標籤傳播演算法是近十年來興起的一類社區發現演算法，相關的研究有很多，篇幅所限，這裡只做簡單的介紹。簡單的說，標籤傳播演算法可以類比於機器學習中k近鄰演算法（即k-NN, k nearest neighbor）。假定圖中的一個節點x有k個鄰居，x1, x2…, xk，這k個鄰居都有自己的標籤（即社區歸屬），x就會選擇最多數的社區加入。

轉載請聯繫本人~