短視頻平台推薦規則之我見

短視頻平台推薦規則之我見

來自專欄短視頻觀察5 人贊了文章

個性化推薦是短視頻平台最主要的內容分發模式

2017年今日頭條創作者大會上,張一鳴表示「在今日頭條及旗下所有平台,現在每天有2000萬條短視頻上傳。」 2016年,排名第一的短視頻平台秒拍,日均上傳量達150萬條。各個平台上每天都有如此之大的視頻內容被發布出來,對於平台來說這是一個非常大的考驗,如何從百萬量級的視頻中提取出針對用戶來說更感興趣的內容。由於個體差異性,千篇一律的視頻內容必然是不嫩滿足用戶的需求的,也導致大量優質內容無法被用戶發現,對於不感性的用戶也造成打擾。以快手為例,快手平台上也存在大量相對更優質的視頻內容(PGC或PUGC產生的內容),為什麼快手給很多人的感受是「low」。是因為快手的推薦規則沒有將適合那些「不low」的內容推薦給這些「高級」的人群。個性化推薦規則的意義:(1)降低用戶挑選內容的成本,將用戶真正感興趣的內容展現出來;(2)幫助平台更健康的發展,避免平台完全被頭部內容和創作者完全挾持,挖掘更豐富的優質內容;

今日頭條高級副總裁柳甄曾表示,「今日頭條致力於用人工智慧技術,搭建全球最懂你的信息分發平台,我們希望技術能夠服務更多人,中國公司應該在更廣闊的區域發揮更大的影響力。」獵豹旗下內容產品News Republic發布了以人工智慧為技術動力的自媒體內容分發平台—Spark。獵豹移動CTO 范承工表示,「我們用智能演算法分析用戶偏好,以幫助讀者發現自身興趣。隨著Spark的推出,用戶不僅可以收到來自我們2000多家頂級新聞提供商的實時新聞(如路透社、美聯社、法新社和BBC),也將看到他們最喜愛的 YouTube網紅和博客作者們的精彩內容。 Spark利用人工智慧幫助這些作者觸達高度垂直細分的潛在讀者。」可以看到,個性化內容推薦也成為越來越多的內容分發平台的主要發展方向。

主要的推薦演算法

基於用戶基本信息的推薦。只將用戶的基本信息,例如地區、年齡、性別、職業等基本信息作為依據。根據用戶之間的基本信息發現用戶之間的相似程度,然後將相似用戶喜愛的其他物品推薦給當前用戶。該種規則沒有涉及到內容、商品以及用戶行為數據並也沒有涉及用戶的興趣、行為,同時因為用戶基本信息數據量太少,基於這樣的數據進行推薦準確性低。

基於內容的推薦。基於推薦物品或內容的元數據,挖掘物品或者內容之間的相關性,然後在用戶瀏覽內容時推薦給用戶相似的物品或者內容。內容型產品,通過對於兩個篇文章或視頻的元數據進行對比分析,在用戶瀏覽某一內容時將相似的文章或者視頻也推薦給用戶。此種方法相對簡單容易實現,主要是挖掘內容之間的相關性,因此也不存在冷啟動問題。但要挖掘內容之間的相關性,就需要通過對內容進行大量的識別,將內容標籤化,對內容的特徵標籤進行對比,從而建立一定的關係。

基於關聯規則的推薦。是基於被推薦對象之間的關聯關係進行推薦的,也就是說當用戶消費A之後,可能會消費B,A和B之間有一定的延續性和關聯性。在電商網站中廣泛使用,比如用戶為購買了一部手機,那麼和手機這樣的商品相關聯的商品,比如該款手機的手機殼、手機膜、手機支架等等。將這些商品推薦給剛剛購買手機的用戶,可能產生的轉化率更高。基於關聯關係的推薦規則的重點是挖掘出關聯關係。

基於協同過濾的推薦。推薦系統廣泛採用協同過濾的推薦方法。協同過濾主要是針對群體特性進行的推薦,認為喜歡相同物品、內容的用戶有可能具有相同的興趣。基於這種假設,針對於有相同興趣的用戶,進行內容或者物品的相互推薦。協同過濾推薦有兩種類型:基於用戶的推薦和基於物品的推薦。通過用戶的行為來對於用戶對物品或者內容的喜好程度進行評分,從而建立用戶的興趣模型。此種方案需要通過用戶的行為來獲取一定數據,因此該推薦方法需要考慮一定的冷啟動問題。基於物品的協同過濾是評價物品的相似性,挖掘所有用戶對物品的偏好數據,發現物品和物品之間的相似度,然後根據用戶的歷史偏好數據,將相似的物品推薦給用戶。基於物品的推薦應用更為廣泛,擴展性和演算法性能更好。但是該推薦方法也是挖掘的群體特性,因此無法提供個性化的推薦結果。

基於用戶興趣短視頻推薦規則

對於短視頻平台來說,無論是基於用戶基本信息的推薦規則的「同城」等功能、還是基於內容推薦的「相關推薦」等功能、甚至基於關聯規則的「相關推薦」的功能,都是非個性化的推薦。

各個平台都在深入的進行個性化推薦系統的優化。短視頻內容的個性化推薦,是根據用戶的興趣進行推薦,更好的、更深入的挖掘用戶的興趣,是個性化推薦的關鍵。標籤是所有推薦系統最重要的數據依據。標籤將非標的內容進行有效的標準化。

用戶的興趣標籤建立:對於移動應用來說,通常是根據用戶的操作行為來判斷用戶興趣偏好。比如用戶瀏覽、完成視頻瀏覽、中止視頻瀏覽、關注、分享、點贊、評論、搜索、打賞等操作。每一個視頻內容都帶有一定的標籤,用戶對於視頻的操作行為反映了用戶對於含有這類標籤的內容的感興趣程度,最終根據一定演算法規則,將視頻的某些標籤賦予用戶,從而建立用戶的興趣標籤。

對於短視頻來說,一個視頻的元數據有:標題、描述、作者、位置、發布時間等信息。視頻的分詞標籤化主要通過標題和描述,每個分詞也有一定的權重差別,根據相關熱度等綜合因素給每個分詞一定的權重。對於PGC團隊來說,通常會有專門的運營人員,針對平台的差異、結合時下視頻內容和時下熱點以及一些引流的策略,進行標題和描述的擬定,同時PGC發布的內容通常,主要為垂直領域。但UGC短視頻平台,我們可以看到,用戶發布的視頻內容通常標題較為隨意,甚至不擬定標題,UGC平台也不存在短描述甚至不用選擇內容的類別。因此對於將內容標籤化的來說,PGC更為豐富、全面且標籤的準確度較高,UGC內容的標籤數據較少、可能存在大量的干擾數據、準確性可能較低。因此UGC平台需要人工的對於內容進行標籤化以便於內容推薦。對於抖音來說,音樂背景也可以是一種標籤,將該視頻所使用的背景音樂作為標籤,通過該標籤可以向用戶推薦相似的背景音樂素材的視頻內容、關聯的(連續性質的段子)視頻。但音頻的內容還是需要大量的人工進行標籤化、和相似性、關聯性的匹配。

用戶的興趣標籤體系通常被定義為層級結構或者塔式結構。以不同的粒度對用戶的興趣進行分級。用戶被賦予粒度更細的標籤時,其上一級的標籤也被一同賦予用戶。用戶的標籤是通過用戶對於視頻的行為添加上的。用戶的不同行為應該被賦予不同的權重,該權重存在冷啟動的問題,因為沒有明確的數據來指導權重規則。所以在最初通過場景分析及用戶的心理需求和經驗來將用戶的行為進行權重的劃分。發布之後,根據用戶的行為數據以及結果,對用戶進行聚類,再進行權重的矯正和優化。

要通過用戶的行為和標籤之間的關係來確定標籤的權重。時間因素,豐富的內容帶來了豐富的標籤,用戶在內容消費的過程中可能會被賦予越來越多的標籤,但是對於用戶很早之前有過操作的標籤,用戶沒有再次進行操作後應該隨著時間的拉長權重也應該降低。興趣的整理歸納;用戶被賦予越來越多的標籤後,在進行內容推薦時,需要考慮到的因素可能太多,導致最終對用戶來說推薦的內容匹配度並不夠高,因此應該將用戶的興趣標籤進行一定的收縮和聚攏,針對用戶興趣較高的標籤進行內容的推薦,此類內容匹配度很高。但這並不能解決突發性的事件導致的用戶某些標籤權重迅速提升的問題,可以從包含該標籤的內容量來判斷是否為突發事件,對突發事件帶來的某些標籤進行一定的特殊處理。避免在該時間段內,大量重複內容的出現,干擾用戶。擁有了用戶的標籤之後,則可以根據用戶的興趣進行基於用戶興趣的內容的推薦以及基於用戶的協同推薦。用戶興趣內容的推薦保證了用戶看到更多自己感興趣的內容,協同過濾推薦也幫助用戶擴展了內容的範圍有助於更多興趣的挖掘。

對於短視頻平台來說,最重要的是內容的冷啟動問題。個性化推薦演算法是要基於用戶的行為為依據進行內容的推薦。可以看到很多平台短視頻推薦的冷啟動內容基本都為一些社會新聞、娛樂新聞、搞笑內容等,因為這類內容基本符合所有用戶的口味,因此在這樣的內容之下的冷啟動不太合理。以快手為例,沒有分類瀏覽、熱門等功能,完全依靠推薦演算法。冷啟動的內容通過一些相對有吸引力的內容來吸引用戶,從而導致用戶之後看到的此類內容越來越多。

由於每個領域的受眾數量存在很大差異性,比如搞笑類內容的用戶量要遠遠高於科技類內容的用戶,因此如果單純通過熱度來進行冷啟動,那麼很多相對流量較低的類別的內容基本無緣冷啟動了。在冷啟動階段,由於完全沒有用戶的任何行為數據,因此在向用戶推薦內容是完全沒有辦法做到個性化的,首先要儘快了結用戶對於哪類內容有更多的興趣,其次才是更具象的標籤。所以可以將所有類別的熱門視頻在冷啟動時展現給用戶,從而可以深入挖掘用戶的興趣。

推薦閱讀:

個性化推薦演算法
亞馬遜的推薦系統使用場景
用戶畫像第二彈,從標籤到個性化推薦,解密數字化營銷
bash 提示符 個性化 總結
揭秘語音交互:個性化AI打造「數字化的你」

TAG:短視頻 | 個性化推薦 | 快手 |