如何評價今日頭條研發的寫稿機器人Xiaomingbot？

01-27

今日頭條對外宣布的一則消息顯示，其在里約奧運會開賽前一周，研發出了一款機器人——xiaomingbot通過對接奧組委的資料庫信息，實時撰寫新聞稿件，以跟電視直播幾乎同時的速度發布稿件。了解，從8月6號開始至今，其6天共生成了超過200篇簡訊和資訊，平均每天產出30-40篇稿件，報道速度最快為2秒，主要報道領域為乒乓球、網球、羽毛球和女足的比賽。單篇最高閱讀量已達5.5萬。其「寫稿」模塊是由頭條實驗室與北京大學計算所（萬小軍團隊）聯合研發而成。這是國內第一款可以報道奧運賽事的人工智慧機器人，在結合了最新的自然語言處理、機器學習和視覺圖像處理的技術之後，通過語法合成與排序學習生成新聞。

鈦媒體：奧運會這種追求速度的消息報道，還是交給機器人吧極客公園：今日頭條的寫稿機器人「張小明」，會寫長文還有感情色彩

寫在最開始，本答案沒有冒犯今日頭條的初衷，只是探討學術。

最重要的話開頭說：絕望女神，拋出了橄欖枝這句話應該是公關（吹牛）部門為了顯示這是自動生成而故意露的馬腳，甚至可以推測這篇文章是機器先生成之後經過人加工的。然而，我們可以看到有的答主已經上鉤了，比如其它答主說「是從題主給出的這篇文章就可以看出，一旦涉及修辭，寫稿機器人還是力有未逮：」。。。力有未逮個毛線啊，我來告訴你文本自動生成可能的錯誤是什麼

由於自然語言生成模型的局限，最大可能的錯誤是生成廢話

下面進入自然語言處理學術片段，不想看的可以跳過。自然語言處理生成，依賴於語言模型language model，語言模型說的通俗點就是我給你前面幾個詞你告訴我下一個詞最大的概率是什麼。記住是最大的概率，如果用數學formulate一下

也就是我需要找個詞 $w_i$ 使得上面式子最大，那麼機器會學出來啥呢？答案是：最平庸的話。我打賭，絕望女神這個短語是用language model學不出來的，除非你們手動改了生成概率，或者你們找了一個作家，這個作家熱愛使用 絕望女神 的短語。舉個例子，在看同組女博士訓練聊天的生成模型時，機器有個習慣，就是很多情況下你說啥，機器都回復哈哈哈，在看同組男碩士訓練文章寫作的時候，發現機器有個習慣就是無論這個人犯了什麼罪最後都判了死刑

小明在超市偷竊，被警察帶走，最終判了死刑。

小明在超市搶劫，被警察帶走，最終判了死刑。

小明在超市殺人，被警察帶走，最終判了死刑。

原因就是訓練語料中判了之後都是死刑，其它有期徒刑的太少,而哈哈也是一個萬能回復。所以，一個正確的機器的錯誤，應該是局部常見，但是放到句子中不對的短語。例如，在銅牌爭奪戰中，取得了勝利，贏得了金牌這種錯誤。甚至有了斯坦福大學的人專門研究怎麼減少這種廢話生成的可能性，A Diversity-Promoting Objective Function for Neural Conversation Models

綜上，這個錯誤應該是非學習計算機自然語言的人，為了希望文章像機器寫的，而故意露出的馬腳，其實機器不會犯這麼冒險的錯誤，機器可慫了。

總結：

自動寫作機器人，或者廣義的說文本生成，分為"模板填充式「，」抽取（chao xi）式」和「生成」式。模板填充式最好理解，有個模板往裡面填項目，運動員比分就行。非常好做，甚至於大一大二的就能用.format("{0}比賽{1}奪得冠軍", sports, player) 這種程序語句搞定。抽取式應該北大萬小軍老師在今年ACL2016上做到了頂峰 http://www.icst.pku.edu.cn/lcwm/wanxj/files/acl16_sports.pdf，一篇特徵工程抽句子的文章，說的通俗點就是找一堆句子，我給拼成一篇文章。而真正的生成，現在還不可工業化，或者說生成新聞還不可工業化。這篇文章應該是基於模板的，也有可能是抽取式的，也就是找了幾個報道這個新聞的文章，重新拼的

新聞界的編輯們，不用擔心，你們離下崗還遠，不過說你們自己要下崗的也都是你們自己人，又在某某科技板塊寫了「機器已經可以取代人類。。。」

有了這個機器人之後估值怎麼著也要高几千萬吧。

這波不虧。

有些把數據描述一遍的」文章」基本上完全可以拿機器生成。幾年前我在券商實習的時候，老闆讓我更新月報。我一看那內容都是什麼」與上月相比，**行業整體增速較高，其中增幅最大的是***」。你說這玩意讓機器寫是不是更方便。

當時編程水平不行就隨便拿excel做了一個。還專門設置了一個詞庫，每按一次F9就重新隨機選詞，因此每次生成的話還不一樣。

一個AI（www.yige.ai）就是典型的檢索式邏輯，好處是可控，這個是企業鍾愛的。

這一新聞讓我想到了未來我們的工作會被機器人所取代，很多人會面臨失業。不過也不用擔心，先看看自己的職業類型，就算有可能會被取代，那也是需要一段較長的時間和技術研究開發的。可以先在這段時間內多學習新的技能，提升自己，充實自己。

牛津大學的經濟學家們對美國就業市場上現有的702種職業進行了量化評估，結果顯示在未來20年，有46%的職業被機器替代的可能性在70%以上。其中替代率在85%以上的職業主要分布在行政事務類、銷售類和服務行業，比如電話銷售員以99%的可替代率高居榜首，各類書記員、辦事員等替代率也都高達98%。而按照操作精細度、創造性和社群感知力的衡量標準，醫療、教育、法律、藝術等工作的替代率最低，尤其以醫生和教師這兩個傳統職業為代表，被機器替代的可能性只有0.4%。

由此看來像編輯這種比較初級的文案，其操作性相對比較簡單的工作很容易被機器人所替代。

之前正好寫過關於機器人寫稿版權問題的論文，也算是做過一些相關調研。這裡拋磚引玉，說說機器人寫稿對新聞行業的影響。坐等新聞學術、AI大牛們前來指教。

機器人寫稿究竟是噱頭還是新聞行業的革新趨勢？

從工作原理來看，目前的「機器人記者」多以特定的信息庫為基礎，通過一定的篩選、分析、運算等信息處理手段，將信息進行重新組合、排列，並套用事先設置好的寫作模板，最終輸出新聞報道。「機器人記者」本身即具備媒介的特徵，又服務於媒介機構，可謂大大拓展了媒介的廣度和深度。

但新聞產業的智能化能否順利推廣，還主要取決於兩個因素：一是智能化設備即「機器人記者」的信息生產水平，二是受眾的接受程度。

通過「Xiaomingbot」可以看出，果然人工智慧最可貴的地方就在於「智能」啊。相較於第一代的機器人寫手，二代的「Xiaomingbot」已經結合了最新的自然語言處理、機器學習和視覺圖像處理的技術，並能通過語法合成與排序學習來生成新聞。如果說一代機器人還存在語言生硬、句式單一、行文枯燥等bug的話，二代的機器人寫手顯然已經具備了更高的語言表達能力和邏輯思維能力和圖文信息處理能力。當然，機器人在信息處理能力方面的速度優勢，加上不斷迭代的自然語言處理和深度學習技術，使得它們有望能做到更快、更准、更強。可以預見的是，未來的「機器人記者」將具備更高的判斷力、理解能力和寫作能力，駕馭更多領域的內容生產工作。

而另一方面就要考量受眾對機器人寫稿的接受程度。

事實上，大部分人是不會有意去辨別一篇新聞報道出自誰手的，況且即使有心去分辨也很難發現其中差距——在機器人寫手出現之前，我們就見慣了程式化、模板式的新聞報道見諸報端和網路，總是差不多的腔調和行文，甚至是類似的結構和配圖。（不過這也不能全怪記者編輯不動腦子、不懂創新，因為新聞的既有範式在先，傳媒的審查規制又愈發全面，留給記者的發揮空間也就捉襟見肘了。）

傳統的新聞生產中，每家新聞媒體都依據自己的新聞立場、編輯方針和普世認同的新聞價值規律開展新聞采編報道活動。在新聞報道中，框架的存在是一種必然。現實生活中的新聞事件多具有突發性，而且往往擁有複雜的局面和多重屬性，囿於新聞報道的時效性和文本簡潔性的要求，任何一篇報道都不允許記者事無巨細地將新聞事件的全貌呈現給讀者。無論是記者還是編輯，他們都只能抓住事件的某些顯著的方面，並把它納入一定的框架中。

機器人寫手正是基於媒體的既有框架在工作。長期以來，這種框架已經廣為受眾所接受，人們在閱讀新聞時最主要的目的就是獲取有用的或相關的信息。而在提供有效信息方面，機器人依仗在閱讀海量信息、篩選有效內容、統計計算數據等方面的優勢，表現不會遜於人類記者。

我認為：這是新聞產業智能化趨勢的顯著標志

麥克盧漢曾指出，人類社會真正有意義的「訊息」不是各個時代的傳播內容，而是這個時代所使用的傳播工具的性質、它所開創的可能性以及帶來的社會變革。當機器人寫手變得越來越智能化，一場智能化革新正在新聞產業中悄然醞釀。

「機器人記者」的出現是一種媒介技術的進步，更是對人力的解放和補充。

「解放」毋庸多言——它們承載了大量而枯燥的信息收集、數據分析、模式化寫作的工作，記者和編輯得以脫身，將有限的精力和智慧投入到更有挑戰性的深度報道中去。

「補充」則顯得更具深遠意義——機器人們一旦佔有某個領域的大數據資料，它們會立刻變得特別專業，比行業記者更顯「行業」。它們的習得過程尤其快速，輸出作品尤其精準。這將使專業領域的新聞報道實現質的飛躍。

網站也好，報紙也罷，任何一種媒體的實際傳播效果都需要在與受眾的互動中得以體現。在「眾口難調」的個性化時代，受眾的分化意味著相同的訊息會被以不同的方式解讀，進而產生不同的傳播效果。因此，如何準確把握不同受眾群體的信息需求，已成為傳媒產業發展所面臨的一個嚴峻挑戰。

囿於人力、財力、物力，傳統的傳媒機構很難在產品的個性化方面有所作為，但未來的人工智慧將可能有效地解決這個問題。

想想未來

基於大數據技術，機器人記者可以細緻分析每一篇新聞的傳播效果，準確掌握受眾的閱讀偏好及信息需求，再通過習得不同專業和風格的語言庫，有針對性地為受眾提供個性化的信息服務。

也許在不久的將來，「Xiaomingbot」撰寫、推送給90後和60後的新聞都會是不同的版本。更有可能，以後的人工智慧機器人會變幻出多重身份——家庭醫生、旅行管家、美妝助手、職業顧問、貼心陪聊……

同時，在系統資料庫里來去自如的機器人也很容易在後台收集到每位粉絲的行為數據。通過分析用戶的閱讀習慣、使用偏好、評論特點，未來它們將可能準確掌握即時的輿論熱點、方向及走勢。相較於當下的各種第三方輿情監測機構，「Xiaomingbot」坐擁今日頭條5.3億活躍用戶的一手數據，在輿情把握、用戶分析方面顯然擁有不可比擬的優勢。

如上所述，得益於人工智慧技術的發展，新聞產業擁有了更豐富的可能性。未來，隨著AI技術的深入發展和大數據技術應用的深入展開，機器人記者在即時新聞刊發、專業領域報道、個性化服務、受眾互動、輿論監測與引導等方面將大展拳腳。

下一代的「機器人記者」會有哪些更強大的功能？

沒有人能知道。毋庸置疑的是，率先掌握了AI技術的科技公司、媒體，必將在初始階段積累到彌足珍貴的經驗及原始受眾群，在未來的新聞產業智能化浪潮中具有先發優勢。

之後我也會留意商業化對學術研究的推動作用，新內容會適時放上來跟大家討論。

現在信息太爆炸了。

我想出個對立面，什麼時候可以出個xiaohong robot

可以替我清清那些無用的新聞廣告。

可以自動不顯示朋友圈那些無聊東西。

我覺得輪子哥做的挺好。

知乎自動答題機器人其實早就上線了，而且智能多了。。。

不然你以為 @vczh 怎麼能24小時帶你逛，

發現更"大"的世界？

將爬蟲抓下來的文章用bot重新揉捏一下。

有效避免最受爭議的版權問題，挺好。

看了一下這個項目團隊發表在ACL2016論文，其實是一個抽取式摘要（extractive summarization）的問題，主要工作是從體育賽事的文字直播中選取重要的句子組合成一篇針對該場比賽的新聞報道。

實驗數據集：150場足球賽事的新浪和網易文字直播（live text commentary scripts）＋對這150場比賽正式的新聞報道(gold-standard news)

數據特點：文字直播部分，單場比賽平均242句，計4590字；正規新聞部分，單場比賽平均32句，1185字

實驗過程：該問題是一個有監督學習的過程，文字直播部分作為訓練集和測試集的輸入，輸入特徵向量x是人工設定的若干維數值，用於對每一句話的向量表示，標籤y由正規新聞產生。所以由此訓練出一個learning to rank模型，可以對文字直播中的每一句話生成一個分值代表其重要性，根據分值選出一定數量的句子，再經過去冗餘過程組合成一則新聞。

所以那句「失敗女神朝其拋出了橄欖枝」很有可能是有問題的。文字直播是人寫的，通常情況下人不會寫出這種句子，既然這裡的AI寫新聞本質上是從直播中選句子，那也不會包含這句沒有來由的話。

這是僅根據該論文的一點想法，也許他們在實際應用中加了一些別的方法，但目前所謂「人工智慧取代編輯或者取代記者」都是新聞界的朋友自己嚇自己，畢竟訓練出來的智能還只是對已有材料的二次加工而已。

reference:

Zhang, Jianmin, Jin-ge Yao, and Xiaojun Wan. "Towards Constructing Sports News from Live Text Commentary." ACL"06

http://aclweb.org/anthology/P16-1129

對於財經、體育領域的快訊來說，寫稿機器人未來一定會是主流。尤其在金融方面，行情、數據都是公開的實時信息，而且有介面可以直接輸出，因此寫稿機器人要做的只是從這些信息中總結抽取內容，形成一篇「今日A股上漲3.2%，創近15日新高；金融、銀行板塊領漲6.1%，基建、水泥板塊表現不盡如人意」的稿子。

這種稿子本身的價值在於，讓關心股市的人能看一段比較簡短的綜述，並知道今天股市的大概情況。同時，依託寫稿機器人的大數據能力，可以給出一些有價值的數據，比如「連續三個月上浮」「創近半年新低」「今年第四次降息」等。

體育方面，由於比賽的賽果通常是較為簡單的數據，因此用寫稿機器人來寫綜述稿的速度也是相對較快，且不容易出錯的。但是從題主給出的這篇文章就可以看出，一旦涉及修辭，寫稿機器人還是力有未逮：

當然，我相信隨著機器學習的進化，這類修辭問題會得到解決。那麼，對於媒體人來說，寫稿機器人究竟是搶飯碗來的，還是好幫手呢？我認為目前來看是後者。

對於純綜述稿來說，這種稿件本身就是缺乏技術含量的，任何一個記者經過少量的訓練就可完成。要說機器人搶了這部分飯碗，搶就搶吧；

至於綜述+數據解析+深入分析類的稿子，目前來看寫稿機器人不太可能做到。它們可以做到我此前提及的「連續三個月上浮」「創近半年新低」「今年第四次降息」，但它們不太可能，也不應該被允許直接作出諸如「創半年新低，顯示投資者信心不足」「連續三個月上浮，或將重演去年行情」這樣的判斷。

而對於記者們來說，有這樣一個能夠幫你把數據、信息搜集得齊全，供你分析的幫手，寫起稿子來難道不是事半功倍嗎？

中央電視台晚七點新聞稿不是一直是機器人寫的么。。。。。

看第一眼以為是小米機器人呢。

機器人控制輿論，人類被統治指日可待。

機器學習發展到現在，是開始的結束，還是結束的開始，還是沒有開始？

我覺得是開始的開始。

自然語言理解需要先解決分詞和詞性標記的問題，然後解決句子表示的問題，這期間要在語義層面實現突破，作為創新的工作者，需要有前瞻性，大膽假設，小心求證，在看到NNLM, RNNLM, word2vec等取得的突破後，我覺得在三五年內，機器學習可以解決word2vec, doc2vec, 多輪對話。因為在語義上，機器學習演算法將使當前狀態更多的使用上下文關係，做出更好的預測。

寫稿機器人在目前而言，也是一個非常好的切入點。

新聞是客觀的，但新聞稿是主觀，且有記者本人創造性的產物，包含了記者看問題的視角，以及感官感受，這些機器人有嗎？

假以時日，如果機器人也有思想，有創造性，可以寫出南周那樣的深度報道稿件了，那時候，任何職業都可被取代。

當然，這離我們還很遠。

那些說記者面臨下崗的，根本不了解新聞的生產過程。

想起了東野圭吾的小說《超讀書機器殺人事件》

希望標題黨的小編趕快下崗

繼流水線工人失業，實體店關店潮後，新聞傳播行業底層勞苦大眾再受重創？

AI開始取代人類了，當然他們只是做重複性的工作，但會對人類生活帶來極大衝擊。