【2018.Q2】談大數據時代PM/BI/運營/運維需要什麼樣的ML工具——發現大規模高維數據中的異常簇

【2018.Q2】談大數據時代PM/BI/運營/運維需要什麼樣的ML工具——發現大規模高維數據中的異常簇

來自專欄互聯網在孫嘉龍低維認知中的投影

TL;DR

  • 大數據時代,人們需要一個比目前聚類演算法更強力的局部異常發現演算法。

在大數據和機器學習時代,只要是一個問題的目標能夠被量化,業務數據能夠被自動的採集,label可以廉價得到的領域,那麼PM存在的意義似乎就很模糊。只要業務沒有變化,所有的目標都量化了,那麼RD整個都可以閉環了,策略PM做策略QA也趕不上哪些機器可以自動評估指標的速度,PM是不是就可以換坑了呢?

從目前的技術上來看,似乎某些「尷尬」的業務場景就是這樣。

當然這裡PM的無力有很多因素,本文主要討論其中的一方面:如何快速找到那些規模不能被無視的badcase簇。

某種意義上,這個需求其實相當廣泛:

  • 策略RD如何進一步優化ML模型,找到可以修復剩餘badcase的特徵。
  • BI如何快速發現業務中的一些並不是很大規模的問題和新需求的跡象。
  • 精細化運營如何找到那些需要干預的目標群體。
  • 運維如何在大規模系統中發現故障的節點。

舉兩個具體的例子:

  • 一個系統可能是由大量碎片化供應商來支持的,這時如何監控哪些小流量的供應商的異常情況。例如虛擬號碼通話,不同是市縣可能都有自己的供應商。有些長尾的供應商可能支持的流量較少,但在出現中斷時再總體大盤上難以發現。導致該地域的產品服務不可用。
  • 用戶可能會發現在某些場景下平台的策略有漏洞可以作弊,但這個場景可能需要在數據上切片到一個非常小的範圍內才能被發現,完全無法靠人力枚舉所有這種可能。例如:假設在滴滴的場景下,一個作弊場景只在某個機場的某些時間段上存在,每天作弊單量也不大,對城市級統計指標上沒有影響。

這是如何在高維大數據集上發現長尾badcase的問題。

但很遺憾,除了按場景仔細設計異常檢測之外,我還沒有聽說過什麼好的手段。數據是有的,問題是存在的,但我們發現不了,這真的是大海撈針的問題。

現在的監督學習能幫助我們么,我覺得不行。

我們需要某種無監督或者半監督的演算法,使得能在各種各樣的奇怪特徵空間中找到這樣的離群簇,這可能是某種DL型的聚類演算法或者是別的什麼。

如果有人能做出一個滿足上述需求的足夠魯棒的演算法,那麼這對於整個互聯網乃至以大數據為基礎的商業企業的效率提升都是極其巨大的,這能夠為這些人的工作效率帶來方法論級的提升。

備註

為什麼單純的聚類是不行的,有兩個原因:

  • 很多業務領域中特徵/場景維度太高,有高維詛咒的問題:高維距離包含的信息太少,高維下數據又太稀疏。
  • 很多業務特徵不是簡單的幾個標量特徵所能表示,例如一個圖像、語音、圖結構。

推薦閱讀:

數據、資料庫、數據倉庫
MaxCompute 2.0 生態開放之路及最新發展
大數據時代下,數據感知在數據質量管理系統中的應用
數據嗨客 | 第7期:機器學習中的過擬合問題
Facebook信息泄露事件影響重大引發大思考

TAG:大數據 | 異常檢測 | 機器學習 |