標籤:

網路嵌入(2)LINE

網路嵌入(2)LINE

這篇論文同樣是做網路嵌入,文章的主要特點是:

  1. 適合任意尺寸的網路,不論是有向圖還是無向圖還是帶權圖。
  2. 本文提出的目標函數(objective function)同時考慮了網路局部特徵和全局特徵。
  3. 提出一種邊採樣的演算法,可以很好地解決SGD的效率問題。(這部分沒怎麼看懂,因此沒寫出來,感興趣的可以去看看原文)
  4. 本文提出的網路表示方法十分高效,可以在小時範圍內的單機節點上學習百萬級頂點網路的表示。

簡介

Introduction介紹了什麼是網路表示,可以用在哪些方面,然後談及前人在網路表示任務的一些嘗試等等。

本文將下面兩種情況的兩個頂點歸結為相似頂點:

  1. 如果兩個頂點之間有一條強連接的邊(權重很大的邊),那麼這兩個頂點就是相似的。圖中頂點6與7就是這種相似。
  2. 如果兩個頂點共享了很多相同的鄰居頂點,那麼這兩個頂點也是相似的。圖中頂點5和6雖然沒有直接相連,但是他們同時連接到了頂點1234,所以頂點5和6也是相似的。

這兩種相似性在文中被描述成了1階相似性和2階相似性。1階相似性認為兩個頂點的邊權重越大,兩個頂點越相似。2階相似性認為兩個頂點的共同鄰居越多,兩個頂點越相似。

相關工作

相關工作中diss了一波傳統方法的效果,有一些方法使用的是矩陣分解的思想,對圖的特徵矩陣(拉普拉斯矩陣、鄰接矩陣)做特徵分解,然而這些方法需要大量的計算,並且效果也有局限性。文中還提到了上一篇論文DeepWalk,將本文與Deepwalk做了對比。

問題定義

這部分定義了後面要用到的幾個概念,這裡摘抄了知乎中一篇文章的翻譯:

1.信息網路

2.一階相似性

3.二階相似性

4.大規模信息網路嵌入

演算法部分

首先來看1階相似性,前面說到1階相似性是用來衡量兩個直接相連的頂點的相似性的,邊的權值越大相似性越高。那麼怎麼將這樣的概念用可計算的形式表示出來呢?文中給出的公式是這樣的:

其實p1就是兩個頂點的向量表示乘積的simoid函數。為什麼是這種形式文中也沒給出詳細的解釋。接下來考慮1階相似性的先驗概率,其實就是 (i,j) 這條邊的權重 w_{ij} 占所有權重之和的比例。從變化趨勢來分析, w_{ij} 越大, p_1 越大,與1階相似性的變化趨勢相同,反之亦然。先驗概率的公式如下:

如何將兩個概率聯繫在一起?文中定義了一個函數表示兩個概率分布的距離:

定義了這個函數後,優化的目標就是縮小兩個概率分布的距離,形象化來說就是,使得兩個概率分布盡量相似,即將左圖的概率分布優化成右邊概率的分布的形式。這個距離在文中被定義成兩個概率分布的KL散度。帶入公式後得到最終的距離函數為:

接下來看2階相似性的計算,2階相似性描述了兩個頂點的鄰居相似度,文中定義2階相似度的公式如下:

熟悉NLP的話會發現其實這就是計算詞向量時用到的公式之一。這個公式會用到兩個向量,一個是要求的頂點表示向量,另一個是頂點作為上下文時的表示向量,這跟計算詞向量的過程是一樣的。同樣需要為這個概率分布找到一個先驗概率:

這個概率可以理解為當前節點是 v_i 的情況下,連接到它的鄰居 v_j 的概率,分子是 (v_i,v_j) 這條邊的權值,分母是從這個頂點出去的所有邊的權值之和。為什麼這個先驗概率可以代表2階相似性呢?我是這樣理解的,回顧一下2階相似性的定義,鄰居頂點越多越相似,並且還跟邊的權值有關,考慮下面這個圖,對於i和j,他們共同的鄰居有3個,那麼可以對應地寫出頂點i和j的先驗概率序列,如果這兩個序列越相似,則頂點i和j就越相似。

有了先驗概率分布,可以將2階相似性定義成如下形式,仍然定義成了兩個概率分布的距離:

將λ定義成 d_i ,可以得到最終的表達式為:

通過優化上面兩個相似度可以分別得到頂點的兩個表示向量,分別衡量了1階相似性和2階相似性,在使用時將兩個表示向量結合起來作為該頂點的最終表示(embedding)。

在訓練模型時使用了詞向量的負採樣方法,這裡不做贅述,後面單開一篇博客聊聊詞向量涉及的幾個方法,這幾個方法在做網路嵌入的時候使用非常頻繁。

總結

這篇文章提出了2個相似性的概念,作者的意思可能是1階相似性表示網路的全局特徵,2階相似性表示網路的局部特徵,但是我覺得比較牽強,與Deepwalk相比,它沒有用到隨機遊走,而且方法上也是基於寬度優先,這樣的方法確實能捕捉到網路的局部特徵,但是對網路全局特徵的捕獲我持存疑態度。

另外文中對兩個相似性定義的函數也沒有明確解釋,我其實不是很明白為什麼它們這麼定義就能代表1階相似性和2階相似性。還有一種說法是說其實LINE做的工作就是在對網路的矩陣做矩陣分解的工作,後面也會提到一篇從矩陣分解的角度看Deepwalk工作的論文。

參考資料

v1ncent.Chen:LINE:Large-scale Information Network Embedding閱讀筆記?

zhuanlan.zhihu.com圖標
推薦閱讀:

社交網路使用手冊:明明是你想搭訕我,怎麼還表現的這麼囂張?
Arxiv網路科學論文摘要9篇(2018-08-07)
如何更好的社交:一位戰勝「社交恐懼」者的自白
社交網路上的多數幻覺:你的朋友總是比你擁有更多的朋友嗎

TAG:社交網路 |