文檔檢索的ListWise推薦演算法

05-06

傳統的文檔檢索按照document pair進行排序推薦，ListWise把文件組做成鏈表加以排列。

假設有Query集合

文檔列表

每個文檔對應的評分列表

每個文本對的特徵向量

排序函數

Loss函數最小是學習目標：

學習的演算法如下：

計算概率分布和損失函數->以神經網路為模型、梯度下降為演算法學習->進行預測。因為，是用神經網路（Neural Network）進行訓練的，所以又可以叫他們ListNet演算法

我們引進一個Top One概率：

一個對象的Top One概率表示，給所有對象打分的情況下，它被排到第一名的概率。

對象j的Top One概率

為給定s的排列概率。

如果用Cross Entropy定義，ListWise演算法損失函數為

演算法：

如果m是訓練的query數目，Nmax是query相關的最大文檔數目，ListNet演算法的時間複雜度為O（m*Nmax）。

這是學術界做的ListNet的一些性能的展示：

相關數據：

可以看到ListNet演算法基本可以保持不敗，偶爾能吊打。

參考資料：

Zhe Cao, Tao Qin, Tie-Yan Liu, Ming-Feng Tsai, and Hang Li. 《Learning to rank:

from pairwise approach to listwise approach》. In ICML, pages 129–136. ACM,

2007.

Buu Kieu Lam 《Learning to Rank:From Pairwise Approach to Listwise Approach》

Koala++ / 屈偉《Learning to Rank: From Pairwise Approach to Listwise Approach》