你的數據科學第一課 | 數據科學50人·朝樂門

朝樂門,中國人民大學數據工程與知識工程教育部重點實驗室、信息資源管理學院副教授,博士生導師,章魚大數據首席數據科學家。他在2016年出版的《數據科學》一書,是中國第一部系統闡述數據科學理念、理論、方法、技術和工具的專著,是數據科學教育領域的代表作品之一。

2012年10月,數據科學家 Thomas H. Davenport 和 D.J. Patil 在《哈佛商業評論》上發表了一篇著名的文章《數據科學家:21世紀最性感的職業》。他們描繪了數據科學家們這個新興的群體,並讓「數據科學」的概念第一次走入了大眾視野。

他們大膽預言,二十一世紀人們將會面對前所未有的複雜信息,而數據科學家則將是站在浪潮之巔的那些佼佼者。當時,正在人民大學研究基於語義Web的知識處理的朝樂門,深深地受到了這篇文章的影響,也由此改變了他之後的人生軌跡。

現代數據科學的由來

數據科學(Data Science)的概念,最早是由計算機科學家、圖靈家獲得者Peter Naur在《Concise Survey of Computer Methods》中提出。那是在1974年,現代科學界最早提出了「數據科學」專業術語。不過,當時Naur的初衷是為了補充「計算科學」(Computer Science)的概念,想法還比較簡單。

(圖片說明:Peter Naur的著作首次提出了「數據科學」的概念;圖片來源:Google Scholar)

進入二十一世紀後,隨著計算機技術的發展和大數據時代的到來,數據科學迎來了自己的春天。2001年,計算機科學家William S. Cleveland首次提議,將「數據科學」獨立設為一個新的學科,作為統計學的延伸,用來研究「計算在數據方面取得的進展」。

2003年,國際科學理事會下屬科學技術數據委員會(CODATA)出版了第一本以「數據科學」命名的學術期刊《Data Science Journal》;2004年,領英在矽谷組建了第一支商業數據科學家團隊。至此,「數據科學」在學術界和產業界,都產生了良好的生態反應,開始進入高速發展階段。

由於現代數據科學起源於計算機科學、統計學等交叉領域,所以在早期的探索中,研究者大多是來自於計算機和統計學領域的專業人士。

朝樂門自己也不例外。他最早做的是軟體開發工作,到博士期間開始研究基於語義web的大規模協同知識處理,都是計算機領域的問題,後來才逐步轉向了數據科學。

(圖片說明:朝樂門在高校開展「數據科學」主題的培訓講座)

朝樂門說,經過這麼多年的發展,數據科學如今已經逐漸從計算機、統計等傳統學科獨立了出來,成為了一門新興的研究領域。「不過還有很多人分不清數據科學與計算機科學、統計學等的關係,認為這是一個衍生學科,其實數據科學已經發展出了自己的理論和範式,數據科學家也已經是一種成熟的職業了。」

到了2012、2013年,數據科學開始進入了豐收的時期。

朝樂門說,在2012年美國總統大選的時候,奧巴馬和羅姆尼的競選陣營中就已經出現了數據科學家的身影。與此同時,在學術界,Schutt 在哥倫比亞大學正式開設了一門《Intro to Data Science》,把數據科學作為一門獨立課程設置;在產業界,Patil等人撰寫了《數據科學柔術》等書籍,介紹數據科學的產品化經驗。

「然後就是《哈佛商業評論》那篇廣為人知的文章,讓大家都開始了解了數據科學的魅力。我也是從2012年開始,決定與數據科學結緣的。」朝樂門笑著說。作為一個學院派出身的數據科學研究人員,他非常重視一門學科的沿革。「當時我花了一個月的時間去了解、認識這個新興的學科,最終決定一心一意做數據科學,開始重構自己的知識體系。這是一件非常有意義的事情。」

(圖片說明:2016年11月,美國時任國防部長Ash Carter 授予白宮首席數據科學家 D.J. Patil 國防部傑出公共服務獎章;圖片來源:Air Force Tech. Sgt. Brigitte N. Brantley)

2015年,奧巴馬政府曾聘請了 D.J. Patil 擔任白宮首席數據科學家,用數據科學的經驗和方法,幫助推行其超過2億美元的「精準醫療計劃」。當時這對全球的數據科學家來說是一個標誌性事件。作為《哈佛商業評論》那篇著名文章的作者之一,Patil一直是數據科學界的領軍人物,他在白宮得到的認可,正式意味著數據科學作為一門學問,開始從混沌走向清晰。

建構系統的理論體系

雖然如今關於「數據科學」的討論已經進行了多年,但還有很多人對這門學科存在一些誤解。在朝樂門的教學過程中,經常會有學員提出疑問:人們怎麼會對枯燥的數據產生興趣?數據科學究竟是不是一門「偽科學」?它與統計、計算機、數學等傳統學科的界限在哪裡?等等

在朝樂門的經歷中,他也曾被這些問題所困擾。朝樂門坦言,其實他也沒有一開始就對數據很感興趣。他首先是對編程感興趣,後來才逐步對數據產生了興趣。

「我高中是在內蒙古師範大學附屬中學就讀的,是內蒙古最好的高中之一。

1996年左右我們學校就有機房,開設計算機課程,任課老師是我最喜歡的數學老師。其實,我喜歡編程是因為喜歡這位老師。當時,他講的是DOS命令,還用Basic語言做一個打坦克的小遊戲,我們完全是照貓畫虎,老師講一步我們做一步。後來,陸續學了C、C++、Pascal、Foxpro、C#、Java,還用.NET、JSP和ASP給別人做系統。再後來,開始掙錢了,就更感興趣了,哈哈。」朝樂門打趣道。

在自己早年的學習經歷中,朝樂門是一個不折不扣的「程序員」,並沒有對數據表現出什麼濃烈的愛好,不過事情的轉折發生在他攻讀博士期間。

(圖片說明:朝樂門在第十三屆ICICKM「知識資本、知識管理和組織學習「會議中)

「我從小喜歡追明星,尤其是科學界的大牛。博士期間我做的是基於語義Web的大規模協同知識處理,因此做語義Web的Tim Berners-Lee,做知識管理的Thomas H.Davenport等是我當時最崇拜的明星。」

有一天他突然讀到Davenport和Patil在《哈佛商業評論》上的數據科學家文章,他覺得非常蹊蹺——為什麼自己的偶像都不說知識管理了,而是說數據科學呢?而且當時他還面臨著一些專業上困惑。一方面,語義Web在研究進入低谷期,學界一直沒有什麼突破性成果出現;另一方面,他明白知識管理和知識工程的研究門檻較低,干擾很多,也較難輸出有影響力的研究成果。

「所以,我做了整整一個月的深入調查和反思,自己到底何去何從。一個月後我做了一個決定,也是我一生的重大選擇——把自己重新啟動,並置零,一切從頭做起,一心做數據科學,重新建構自己。」 在做知識工程的時候,朝樂門已經接觸到了大量數據,有意無意地也嘗試過一些大數據的方法。但在真正接觸了這個領域後,他才意識到數據的魅力。

朝樂門認為,雖然數據科學是脫胎於計算機、統計學、數學等幾個傳統學科的交叉領域,但如今已經成為了一門獨立的學科。他把數據科學定義為:一門以 「大數據時代」的新數據、新挑戰、新機會、新思維和新方法為核心內容的,包括理念、理論、方法、模型、技術、平台、工具、應用和最佳實踐在內的一整套知識體系。

「你會發現,現在幾乎所有學科都會交叉大數據的內容,比如新聞就有數據新聞、與金融交叉出現了金融大數據、與社會學交叉出現了社會大數據等等。數據新聞、金融大數據、社交大數據等衍生學科再交叉的共同部分,就是數據科學。」

(圖片說明:朝樂門對數據科學的「鷹」圖分析)

朝樂門對數據科學有一個經典的「鷹圖」,鷹的四肢分別是:統計學、機器學習、可視化和學科知識,軀幹是數據本身的知識和體系。軀幹是數據科學的基礎,但是只有有了翅膀和腳,數據科學這隻雄鷹才能起飛、落地,真正遨遊在天際。鷹的頭部是應用領域,脫離了具體應用領域,數據科學這隻鷹就相當於沒有頭腦,不知飛翔何處。

哥倫比亞大學的助理教授 Rachel Schutt 在2013年出版的圖書《Doing Data Science》是國際上第一本較完整介紹數據科學理論的教學作品。朝樂門在2015年出版了《數據科學》一書,系統介紹這門新興學科,為數據科學的規範化、體系化研究,奠定了學術基礎。

數據教育,依然任重道遠

雖然數據科學起源於學院派的研究,但是最近幾年互聯網的飛速發展,吸引了一大批學者從學界轉身進入業界,加速了產業界對數據科學的實踐探索。

朝樂門認為,數據科學首先應來自於實踐,而不是人們的頭腦和邏輯推理,然後才能應用於實踐。他告訴記者,「目前,雖然數據科學非常火,但是專攻數據科學研究的人太少了,數據科學的理論還需要進一步沉澱和系統梳理。就現在而言,社會和行業對數據科學的影響,要遠遠大於數據科學本身對社會和行業的影響。」

朝樂門這幾年的工作,主要是以數據科學為直接研究對象,揭示和構建數據科學的理論體系。他在人民大學開設了《數據科學》等課程,非常受歡迎。他正在主持完成教育部-IBM產學合作協同育人課程建設項目《「數據科學導論」課程設計與教學改革研究》。他把這個系列課程搬到了網上,提出開源課程(Open-sourcing courses)的倡議,希望像開源社區一樣去建設課程,使老師們從找素材、輸入、排版等低級瑣碎工作解放出來。

他的開源項目得到了全國高校大數據教育聯盟的支持,目前有200多所學校的教師表示支持和加入到「數據科學導論」的開源課程建設中。

「數據科學起源於計算機、統計學等傳統理工類學科,在傳統的觀念中,理工類的同學對這門課程可能感覺更加友好。」朝樂門說到,但是如今參加他課程的學生,大多來自不同的專業和背景,並不局限於傳統理工類學科。數據科學已經成為了一門基礎學科,正在頻繁與其他學科產生交集和碰撞。

因此對朝樂門來說,培養學生興趣而不拘泥於傳統知識概念,是他在教學中最為關注的一個環節。「有些同學說,他對數據沒有興趣。這其實很正常,因為我們過去的基因中沒有這個東西,它是新出現的事物。很多時候你知道的越多,你的興趣自然而然就產生了。」

與傳統的學科教育不同,朝樂門認為數據科學更加註重實戰及興趣培養,而不能局限於理論學習。對於多數人而言,興趣並不是先天的,而是建立在自己的學習和堅持之上。

由於數據科學的內容較為流程化,在教學的時候,朝樂門經常會不斷反思對這門新興學科的教育理念。

「我曾做過一場很奇怪的噩夢,夢見我教過的學生回來看我了。但是奇怪的是,所有同學都穿著同樣的工作服,好像都來自一家大企業,每人手上拿著一朵康乃馨,一起大聲喊『多虧了當年您教的那門課,您教的太好了,如今的我們都當上了經理啦!』。嚇得我一身冷汗。驚醒之後,我就哭了,我開始恐懼自己的教育會失敗。」朝樂門說,從此時候,他更加思考數據科學的個性化教育,不僅是為了讓學生畢業去競聘社會上的高薪崗位,更應該是培養他們的綜合能力,讓他們在未來二三十年,仍保持社會競爭力。

但是,如今國內開展數據科學教育的高等院校並不算多,大部分教授相關內容的都在職業教育領域。在朝樂門看來,如何培養數據科學的個性化教育,讓這門學科成為素質教育的一部分依然任重道遠。

數據產品才是未來

除了在大學擔任講師外,朝樂門還同時擔任了章魚大數據的首席數據科學家等社會職務,參與了很多商業項目的開發和討論。

在章魚大數據,朝樂門主要參與對數據戰略的把控和數據產品的設計兩個方面。在朝樂門看來,數據產品開發主要分為兩種:一種是基於數據本身的產品,例如流量檢測服務等;另一種就是讓數據進入產品中,賦能產品,例如人工智慧類的產品。

在朝樂門眼中,數據產品是數據科學中最重要的內容,它能夠最快地結合產學研的優勢,發揮出數據科學的商業和社會價值。「數據產品開發是數據科學的抓手,也是數據科學將對人類帶來的最大貢獻。」

數據產品並不限於「數據形態」的產品,而泛指「能夠通過數據來幫助用戶實現其某個目標的產品。以Google Glass為例,雖然其產品形態上看似乎是「眼鏡類產品」,但從其主要競爭力之源看,卻屬於「數據產品」。

(圖片說明:Google Glass 智慧眼鏡;圖片來源:Glass 官網)

他認為,數據產品開發主要關注的是如何將數據科學的理論融入傳統產品開發實踐之中,進而實現產品的更新換代和用戶體驗的提升。如果計算機科學的出現給我們帶來的是軟體產品,那麼數據科學給我們留下的是數據產品,數據產品是數據學科領域產學研結合的中樞。

未來,數據產品開發將嵌入傳統產品的研發之中,二者的界限越來越模糊。數據科學家將成為未來產品從傳統向智能過渡的關鍵因素,以數據為中心的設計思維也將會是數據產品開發的主要思維模式。

同時,數據產品開發的興起將推動數據科學的嵌入式應用。「數據科學將作為傳統產品的創新點、增值點和競爭力之源,成為產品開發的必要環節,數據科學領域呈現出了高度融合的趨勢」,在朝樂門看來,數據產品開發將是數據科學最為直接、最為普遍的應用方式。

「Rachel Schutt 在加入哥大之前,曾在Google Research工作。她代表了未來數據科學家的職業道路:企業與高校雙向流動。」朝樂門認為未來的數據科學家,一定是兼顧了學界和業界的經驗與能力。

自從決定紮根這一行業,如今對於朝樂門來說,已經沒有什麼是比數據科學更重要的事了。「我現在奮鬥目的只有一個,爭取做到數據科學領域最努力的人,最捨得投入自己的時間和精力的人。其他的,都無所謂了。」

作者 | 程一祥:chengyixiang@dtcj.com

題圖 | 站酷海洛

數據俠門派

朝樂門,中國人民大學數據工程與知識工程教育部重點實驗室、信息資源管理學院副教授,博士生導師,章魚大數據首席數據科學家;中國計算機學會信息系統專委會委員、中國軟體行業協會中國軟體專業人才培養工程專家委員、全國高校大數據教育聯盟大數據教材專家指導委員會委員。

他在2016年出版的《數據科學》一書,是我國第一部系統闡述數據科學理念、理論、方法、技術和工具的作品。他另著有《數據科學理論與實踐》《Python編程:從數據分析到數據科學》等作品。

數據科學50人申請進行中...

「數據科學50人」項目是DT財經旗下數據俠計劃重點內容產品,與數據科學領域KOL挖掘數據內容的價值。我們將從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。

往期文章回顧:

王煉   

+

 

謝梁   

宣曉華   

+

 

丁宏偉

 +

 

魯穎

    

+

 

甄浩    

+

 

湯奇峰   

+

 

劉富兵  

單藝   

柳超   

+

 吳甘沙   

+

 

閔萬里

+

 

高豐 

  

陳為

   

崔曉波   

+

 

沈志勇

杜曉夢  

+

 

吳海山

   

+

 

丁磊  

+

 鄔學寧 

 

+

 

呼延如生 

 

張智林  

+

萬菁  

+

 吳明輝

+

 李丹楓 

吳強 

+

 李笛 

+

戴金權

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。


推薦閱讀:

星際穿越:電影幕後的科學猜想、推測和事實
美國科學家首次直接探測到宇宙大爆炸第一波震蕩
那些信奉「科學的盡頭是神學」的都是什麼樣的人?
科學證明宇宙是泡泡!
科學公園 : 為什麼做無神論者

TAG:科學 | 數據 | 數據科學 |