回顧·音樂垂域的自然語言理解
08-26
回顧·音樂垂域的自然語言理解
數據是核心,資源主要來自資源方、垂直網站還有人工運營平台。獲取數據後對數據進行歸一化,做相應的映射,打一些標籤。還要排重,一家網站一首歌也會存在很多版本,但是我們只需要原始數據忽略版本。後續就進行DB、內容評審、構建索引等,清洗數據會花費大量時間。音樂NLU整體架構,分為意圖抽取、知識庫搜索排序、欄位抽取、路徑選擇及打分、線上數據反饋。意圖抽取會對query進行預分析,數據預處理,然後中文分詞還有推薦意圖分類器,還有文法規則,最後找到一些主幹query供後續搜索,先理解query語義上的可能的一些傾向性的方向判斷,找到主幹query供第二部使用。
打分是基於意圖分類和規則打分,還有基於語言路徑的用戶選擇。由於語言的歧義性可能會選擇多條路徑,典型二分類問題,缺少其他domain打分信息結合少量必要規則,替代原有規則系統。最終選定GBDT演算法,利用各種特徵,如職業特徵,郭德綱、岳雲鵬都唱過歌,但是職業是相聲演員,單說歌手就會將其推電台。還有一個優勢就是APP搜索日誌,小米音樂大都是key-words搜索,如果在日誌中找到也是屬於音樂特徵。
推薦閱讀:


今天分享的內容有項目研究背景、實現了那些功能,在做音樂領域時有哪些獨有的問題與挑戰,還有就是「小愛」項目具體的實現。















推薦閱讀:
※【群話題精華】五月集錦——機器學習和深度學習中一些值得思考的問題
※2018.7.8論文推薦
※Paper List for Style Transfer
※ACL 2018資源:100+ 預訓練的中文詞向量
※SQL基礎語法練習-2
