【2018.Q2】談大數據時代PM/BI/運營/運維需要什麼樣的ML工具——發現大規模高維數據中的異常簇

05-29

來自專欄互聯網在孫嘉龍低維認知中的投影

TL;DR

在大數據和機器學習時代，只要是一個問題的目標能夠被量化，業務數據能夠被自動的採集，label可以廉價得到的領域，那麼PM存在的意義似乎就很模糊。只要業務沒有變化，所有的目標都量化了，那麼RD整個都可以閉環了，策略PM做策略QA也趕不上哪些機器可以自動評估指標的速度，PM是不是就可以換坑了呢？

從目前的技術上來看，似乎某些「尷尬」的業務場景就是這樣。

當然這裡PM的無力有很多因素，本文主要討論其中的一方面：如何快速找到那些規模不能被無視的badcase簇。

某種意義上，這個需求其實相當廣泛：

舉兩個具體的例子：

一個系統可能是由大量碎片化供應商來支持的，這時如何監控哪些小流量的供應商的異常情況。例如虛擬號碼通話，不同是市縣可能都有自己的供應商。有些長尾的供應商可能支持的流量較少，但在出現中斷時再總體大盤上難以發現。導致該地域的產品服務不可用。
用戶可能會發現在某些場景下平台的策略有漏洞可以作弊，但這個場景可能需要在數據上切片到一個非常小的範圍內才能被發現，完全無法靠人力枚舉所有這種可能。例如：假設在滴滴的場景下，一個作弊場景只在某個機場的某些時間段上存在，每天作弊單量也不大，對城市級統計指標上沒有影響。

這是如何在高維大數據集上發現長尾badcase的問題。

但很遺憾，除了按場景仔細設計異常檢測之外，我還沒有聽說過什麼好的手段。數據是有的，問題是存在的，但我們發現不了，這真的是大海撈針的問題。

現在的監督學習能幫助我們么，我覺得不行。

我們需要某種無監督或者半監督的演算法，使得能在各種各樣的奇怪特徵空間中找到這樣的離群簇，這可能是某種DL型的聚類演算法或者是別的什麼。

如果有人能做出一個滿足上述需求的足夠魯棒的演算法，那麼這對於整個互聯網乃至以大數據為基礎的商業企業的效率提升都是極其巨大的，這能夠為這些人的工作效率帶來方法論級的提升。

備註

為什麼單純的聚類是不行的，有兩個原因：