今日頭條是否存在收集用戶數據的行為?

我發現每次我說過什麼事情後,第二天今日頭條就會出現相關內容。打個比方,我聊天中說過買電飯煲,第二天就會出現電飯煲的信息。我說今天怎麼一直打嗝,就出現怎麼治療打嗝的信息等等,問身邊幾位在用今日頭條的同學也發現存在這個現象,細想就後怕,請問大家有類似嗎?


==== 2016-2-14 更新 ====

先科普一下常用的能當作識別碼的東西:

  • 手機出廠的串號(手機廠商分配)
  • IMEI/MEID(基帶出廠時燒錄在基帶中)
  • IMSI(運營商分配)
  • ICCID(每個SIM卡唯一)
  • 手機號碼
  • WiFi/藍牙的MAC地址(可繞過安卓API從/proc獲取)
  • 通訊錄
  • 當前連接的無線網
  • 附近的無線網
  • App創建在手機存儲中的包含一個隨機字元串的文件

前五行是今日頭條嘗試獲取的賬戶類型。上次忘記發了。
第七行里的10.0.0.172我記得好像是移動cmwap接入點的代理伺服器地址。

中部還有兩次掃描附近WiFi的行為,之前不小心沒看到。

另外根據部分知友的推薦,測試了其國內官網下載的版本。
APK 副本:
https://mega.nz/#!DB4lnS4I!6r9c8V_kzH9int0SdDbi9JXWFf19GoCGnl648lRjUgA

以下是國外版沒有做過的事情:

獲取手機的 IMEI/MEID。
參考:https://developer.android.com/reference/android/telephony/TelephonyManager.html#getDeviceId()

載入了百度的定位SDK運行庫。且同時載入了兩個版本的。

獲取附近的基站列表。(在無LTE功能的CDMA手機上無效)

獲取最後一次已知的位置。

獲取當前的 IMSI 。
參考:
https://zh.wikipedia.org/wiki/%E5%9B%BD%E9%99%85%E7%A7%BB%E5%8A%A8%E7%94%A8%E6%88%B7%E8%AF%86%E5%88%AB%E7%A0%81
https://developer.android.com/reference/android/telephony/TelephonyManager.html#getSubscriberId()

獲取卡1的號碼。

獲取一切能獲取到的基站信息。
和上面的 getNeighboringCellInfo() 功能相似,但在 Android 4.2+ (API 17)的系統上能獲取到更多信息。
參考:https://developer.android.com/reference/android/telephony/TelephonyManager.html#getAllCellInfo()

==== 以下為原文 ====
於是我就親自下了個今日頭條來看看它到底幹了什麼。

截圖較多,請注意流量。
可能不是很適合對計算機沒有經驗的人閱讀。

測試環境:

  • Cyanogenmod 13.0-20161219 (Android 6.0.1)
  • Xposed v87
  • XPrivacy 3.6.19 (481)
  • GNU objdump (GNU Binutils for Debian) 2.25
  • 今日頭條 5.9.8 ,下載於 Google Play

於是,點開今日頭條。

不出所料,第一件事果然就是獲取設備識別碼。
在此先引用一篇文章:談談 Android 中的各種設備標識符

接著就是檢查存儲卡是否可讀寫。
國產軟體大多數都是不遵循 Android 的官方指導的,已經習慣了。
聽說你要緩存數據?請參考: https://developer.android.com/guide/topics/data/data-storage.html

獲取手機上有哪些賬戶。嘖嘖。

然後獲取當前連接的 WiFi 的相關信息,包括但不限於:

  • 接入點名稱(SSID)
  • MAC 地址
  • IP 地址
  • 是否為隱藏網路

參考:
https://developer.android.com/reference/android/net/wifi/WifiManager.html#getConnectionInfo()
https://developer.android.com/reference/android/net/wifi/WifiInfo.html

獲取另一種識別碼,多多益善嘛。
與 SERIAL 的區別請參考上面引用的文章。

獲取華為 EMUI 系統的版本號。有意思。

獲取已經安裝的 App 的列表。

獲取當前運營商。

獲取當前正在運行的 App 列表。

獲取藍牙的 MAC 地址。

在後台靜默執行一個可執行文件。

然後我簡單地看了下這個文件,不做任何評價:

關於下面出現的 am start 的科普:adb啟動程序命令:adb shell am start

關於下面出現的這個inotify_add_watch函數的科普:Linux下使用inotify監控文件動作 | 江淼的Blog

獲取手機的CPU信息。

獲取手機的內存信息。

直接通過內核介面獲取各網路介面的 IPv6 信息(繞過了 Android 的 API)。
參考:IPv6地址的自動配置-frankzfz-ChinaUnix博客

先寫這麼多,有空再更。


評論關閉,第一次見識到知乎的某些人,沒有工程師們的實,還非要一副工程師大牛的口吻想「吊打」你,也是醉了!(我也不是工程師,所有猜測僅代表個人觀點,歡迎真正的行家指正錯誤,鞠躬。另外張口扯出來唯一兩個單詞是CIA和NAS的就算了,既不是工程師身份認證,也沒有真正拿著業內信息出來探討,說著多年前軍情愛好者新聞討論這個問題的請你自覺出門左轉,怕你了!)

我第一次見到有人為了說一個APP內置的語音識別技術吧美國中央情報局和美國國家安全局搬出來,你怎麼不把我們國家國防部國安局也搬出來呢?!拿著軍用級別的技術說可以監聽和識別兩千米外的音頻和人像,你給你家蘋果配上國防級別的感測器,適配上國防級別的軟體,嗯,沒毛病,也許你那個蘋果就也可以兩公里外監聽和識別人像!不過那台蘋果你還拿不拿得動我就不知道了,這種級別的光學設備的體積,嘖嘖嘖嘖,人家那是給無人機和衛星配的好吧?!算了,具體的這種事兒應該交給更專業的工程師來解釋。

感謝在老東家工作的日子(然而,遵守規則,不具體說明崗位里的東西),深度接觸了很多目前企業商用的語音識別方面的東西,雖然有些現實是自己也感到很失望的。只想特別說一點,很多語音輸入標稱的90+%的識別率,在特定條件下是真的,但絕不是隨便你怎麼樣丟個音頻給它它都90+%的識別率,這個和採樣很有關係。一旦用於識別的採樣音頻的音質存在瑕疵(音量不足、背景噪音過大、主體人聲不清晰、語速或口音過分不標準)都會導致實際的識別效果直線下降,這也就是為什麼使用語音輸入法的時候你點開語音按鈕後要對著你手機的麥克風去認真說話效果會更好。如果像日常場景一樣手機丟在一邊,人自顧自的說自己的,手機能收錄到的聲音是沒有保障的,也許會湊巧有效果很好的片段,但是更多的情況一定是採樣失敗的。除了一直拿著手機在身邊的人,還有很多人會把手機各種朝向的丟在幾米開外的某處、充電、放包里等等,這些情況下手機能收錄的音頻質量往往幾乎不具備識別價值,為了那一點點可悲的採樣而開發一個高風險的功能讓手機持續的霸佔手機麥克風許可權,以各種明顯的表徵(影響手機續航、影像手機流暢度、大量耗費手機流量)和給自己的公司帶來毀滅性的信譽風險(一旦自己的軟體被競爭對手反編譯坐實竊聽用戶的醜聞並大肆報道,還想不想在市場上混了?)

說竊聽不現實是因為現有更好的方案,無數的業內人士已經過來說明了各家企業都有自己很便捷獲取的一些些客戶隱私信息,不管是合法還是不合法手段獲得的,然後他們會共享,一旦大量碎片信息拼圖之後,形成的情報量級就很可怕的,也很可觀,這是幾乎沒什麼風險的手段,目前尚未有特別有效的監管渠道可以監控這件事情,而企業也能從這個拼圖過後的大數據平台獲得利潤豐厚的翔實精確的用戶數據,有這個渠道幹嘛還要去做吃力又不討好的事情呢?

也許真的有公司在開發出了如此牛逼的語音技術吧:

擁有超高採樣成功率(無視各種人機距離和手機麥克風指向性+高準確度自動增益+超高精度背景降噪)、超高壓縮比(超小體積的高音質採樣文件保存)、超高識別率(無視語速與口音影響、無視中外文的混輸,不論什麼內容都依舊堅挺在90+%的準確識別)當中的任意兩項。而且它有了這種在全球語音領域都可以稱霸民用級市場的技術而不選擇大舉切入語音市場去攻佔空白市場而是非要做這種無聊的用戶竊聽。

也許真的有這樣技術上簡直能秒殺BAT+訊飛+微軟亞洲研究院而且還思路清奇的掃地僧級別的公司吧,畢竟有人說了我是活在上個世紀的小朋友╮(╯_╰)╭

歡迎大家做實驗,打開語音輸入法或者Siri之後不要對著手機,去模擬一些其他場景試一試,把手機放在各種平時你會放著的場景,別去下意識的對著手機叫喚,而是真正讓它在各處聽聽你聊天,看看你的手機究竟能聽出來多少你說話的內容。

IOS的許可權管理不完善,但的確依然還是很強大了,一方面IOS中對於麥克風等硬體是提供系統級別的許可權隔離的,可以禁止APP調用麥克風,另一方面,連IOS內置的語音輸入埠都管的恨死,多年以來訊飛語音輸入法一直不得不額外調出輸入板做語音輸入然後讓用戶手動複製粘貼,直到最近才通過某些小手段繞開了這個機制,但穩定性依舊受到影響,被用戶抱怨著不時閃退或者失靈,畢竟這依然就不是蘋果官方支持的事情。何況蘋果所有的語音有限許可權和資源一定都是先傾向於Siri這個系統內置的語音模塊的,一旦Siri需要啟動,其他應用也必須讓路,能凌駕在Siri之上的恐怕只有通話類的功能了。我相信走一些小花招可以短時間繞開蘋果的某些許可權設置,但是想在墓碑機制後台下既能持久存活還要保證存活後的穩定性並各種繞過系統級別的許可權限制耍花招,恐怕這家軟體公司的團隊就真的太牛了,而實現所謂的監聽,必須每一環都做到,要穩定持續的維持高優先順序還不停的做繞過許可權的動作,這麼大動靜還不許影響了用戶手機的流暢性,不能產生過大的網路流量,代碼還要隱藏的好不至於在apple store這一關就被抓個現行惹怒蘋果……換我我也直接把精力放在和大數據平台合作去搞幺蛾子來的省心。

我當然絕對的相信企業們不會放著油水不去碰的,但是商人們一直最看重的就是低風險、低成本、高收益,如果有更符合這三條的渠道,他們肯定不會去依靠高風險高成本的手段做同一件事兒。所有的解釋只是想說明:竊聽可能性低,是因為可行性低,風險高、成本高,不是他們不想。但是通過大數據平台這個途徑,的確可以很輕鬆的做到大家所遇到的這種攫取用戶隱私的事情,他們肯定更願意這麼干。

他們或許不是竊聽,而是竊取,更多的通過竊聽之外的手段竊取。

反正我也愛啰嗦,那就再寫點廢話吧,建議不管安卓還是IOS,用戶還是應該抽個時間認真檢查一下APP們的許可權設置,關掉那些你認為這個APP不必要用到的許可權,至於怎麼看怎麼關請自己搜索許可權管理這四個字。

對於不是特別必要使用的APP,可以刪掉,畢竟如果只是為了閱讀新聞的話,網頁端也是可以的,和安全性相比,感覺卸載掉今日頭條什麼的也不會有太大的損失。

如果感覺哪裡不對勁,可以查詢一下有沒有系統監控的軟體,安卓下是有這種軟體可以監控手機里每個APP的運行時長、自啟狀況的,不知道IOS中能監控到什麼程度,還有流量監控,即使是wifi下的流量用量也都是可以查出來的,如果一個軟體有著太多異常的自啟、運行時間、非前台下的流量損耗的話,卸載丫的,幹嘛跟它客氣!

悲哀的希望我們還管得住自己的信息不被恣意竊取,雖然我已經不抱什麼指望了……

就這樣吧,如果說了太多嚴重謬誤的東西大家點擊反對就可以了,一定數量後答案會被摺疊的。另外還是感謝某些事情,讓我徹底意識到有時候把時間耗在跟人想把事情說清楚是多麼愚蠢的事情,這類問題以後還是看一些認證程序猿工程師的朋友更可靠,也不用浪費時間在我們這些「不夠專業」的人這裡了。

——————————————無聊的原回答分割線—————————————

依照蘋果手機對IOS系統的把控性,特別是語音端,這個很不現實,從許可權管理來說,在蘋果的手機上要想實現持續的監聽要麼就是能調用系統級別的埠(Siri這樣的集成在系統內部的系統級應用才有的許可權),要麼就是軟體持續維持前台狀態(安卓也許可以,IOS幾乎不可能,特別是對今日頭條這種應用,IOS的後台機制幾乎是不會允許它這樣運行後台進程的),否則應用就不可能持續調用麥克風監聽的,再一個,這樣做對手機的資源、網路的流量的佔用都是很大的,直接就會被系統監控和流量監控看出端倪,畢竟如果想查,wifi的流量使用手機系統也是記錄的,持續的語音監控會產生多少數據可以好好想一下,再先進的壓縮技術也不可能將這麼宏大的語音數據在不影響質量的情況下壓縮到難以被察覺的體積。何況如果想通過語音數據去做這樣的分析,按照這種APP的用戶量,幾乎不可能使用人工,就算是科大訊飛這樣專業語音識別體量的企業的全體人工速記團隊上陣都不可能完成這樣的工作了,而如果使用語音識別,就算是訊飛這樣國內頂尖的語音識別技術方,也幾乎不可能做到對如此複雜的環境下無法保障音質的數據進行準確的識別和關鍵字篩選,要想通過機器實現這種監聽的效果,必須機器能持續準確的識別所監聽到的語音內容才能在發現關鍵字的時候予以捕捉。雖然訊飛等公司都號稱在語音輸入上擁有超過90%的識別率,但這畢竟是針對輸入場景,用戶要近距離的對準手機麥克風說出輸入內容,而且語音清晰度、背景音、語速、口音對實際表現的影響很大,每個人使用語音輸入的時候都還是會刻意的做發音調整的,平時閑聊的時候語速、口音都是很沒保障的,更不要說背景雜音的問題了,要是有這樣的監聽技術,智能語音助手這一塊應該早就爆發了革命性的新升級了!現有的可以商用的語音技術沒有一個能在成本和效果上實現你們描述的這種監聽。

但在最高點贊的那個回答的評論中有一些真正的業內朋友的回答是更符合現實狀況的,那就是各家公司之間不可描述的「大數據合作」,當搜索引擎、視頻內容方、購物電商、興趣閱讀等諸多企業聯合起來做「共享大數據」,都把自己收集到的用戶情報(搜索記錄、查閱記錄、閱讀記錄、觀看記錄、還有用戶在前期註冊時候自己主動提交的各種興趣傾向和內容偏好設置)全部彙集起來,那就很可怕了,完全不需要監聽,因為你的一舉一動只要企業能及時的把相應的內容放進共享資料庫中,立馬所有和這個舉動有關的剩餘企業都可以展開行動。用戶在購物網站有過搜索或者瀏覽、搜索引擎有過搜索或者瀏覽、在機頂盒點播或者搜索之後如果這些數據都被及時的共享在了他們的「大數據平台」,那麼興趣閱讀類的商家跟著根據這些關鍵信息去推送相應的內容是完全有可能的,以各家的能力,這種數據搜集與共享反而是沒有技術難度的,如果這中間再有更複雜的利益牽涉而保證了這樣一個把人剝光的「大數據共享平台」真實存在的話,發生這種頭天無意識看過什麼第二天就被內容軟體推送相關內容的事情就實在是再正常不過了。

監聽是一件費力不討好的事情,需要極高的技術支撐,而獲得的數據質量極低,從中還要經過複雜的工作才能剝離出並不豐富的情報資源,如果不是國防安全這樣的特殊需求,商業企業是不會做這樣費力不討好的事情的,如果真的監聽了絕對也不會先考慮用來做這種不痛不癢的使用,幹嘛不直接竊取更有利益價值的信息搞搞敲詐勒索或者賬戶資源盜取呢?(自己不做賣給相應的黑產業也比找些不痛不癢的東西去給客戶推個廣告更掙錢啊)

但是每個企業將自己的可以用於用戶畫像的數據共享之後,會得到比監聽你更加精確詳實的你生活每一處細節的畫像,知道你看了什麼、可能想看什麼、買了什麼、可能想買什麼、收入狀況、職業等等,並經過簡單的整合分析就知道你的家庭狀況、社交狀況、對於特定標的態度、操作習慣等等,依照這樣豐富、精確而實時更新的數據,推送一點相關內容簡直是太小意思了。這不是一個監聽能解決的事情,也不是一家企業踐踏客戶隱私的問題,而是互聯網企業的浪潮之中,一群企業如何面對職業道德與抉擇自己如何對待用戶隱私的問題。


不可能去進行所謂的語音竊聽,然後再給你廣告,考慮一下廣告成本好嗎?


九成九是大數據DMP公司收集了你的數據,然後賣給了幫助今日頭條變現的DSP公司。


厚臉皮艾特一下這領域的大神 @北冥乘海生


我發現每次我說過什麼事情後,第二天今日頭條就會出現相關內容。打個比方,我聊天中說過買電飯煲,第二天就會出現電飯煲的信息。我說今天怎麼一直打嗝,就出現怎麼治療打嗝的信息等等,問身邊幾位在用今日頭條的同學也發現存在這個現象,細想就後怕,請問大家有類似嗎?

tldr: 你的隱私不是被竊取的, 而是你送上去的啦

自己從沒用過今日頭條, 但我覺得"竊聽"用戶隱私這種行為, 一個正經軟體是絕對不會也不敢碰的. 因為這種方式比較容易被發現, 今日頭條上億註冊用戶的量級, 做這種事情, 絕對早就暴露了. (有點好奇想裝個頭條玩一下了.)

我這裡"竊聽"行為, 指:

通過手機麥克風, 取你的聲音, 通過輔助手段"主動"取你在其他應用中的聊天信息等.

@張導 回答的: "孕婦效應:懷孕的人更容易留意到身邊的孕婦。"不知道為什麼被摺疊, 我覺得是有道理的.

今日頭條做的, 是通過合法的方式主動獲取你的交給它, 交給它的合作夥伴的"隱私":

摘自 今日頭條的核心架構解析 - 踏雪無痕SS - 博客園 這篇文章:

獲取你在今日頭條應用內數據:

  • 用戶訂閱
  • 標籤
  • 部分文章打散推送
  • 另外還包括用戶訂閱的頻道,比如電影,段子,商品等

獲取應用外數據:

  • 通過用戶使用的手機,操作系統,版本等「識別」
  • 用戶通過社交帳號登錄,如新浪微博,頭條會對其好友,粉絲,微博內容及轉發、評論等維度進行對用戶做初步「畫像」
  • 關注、粉絲關係
  • 關係
  • 用戶標籤
  • 對用戶安裝的APP進行分析,另外還有用戶瀏覽器的書籤。(我猜這裡可能有歷史瀏覽記錄)
  • 頭條會實時捕捉用戶對APP頻道的動作。

文章里沒寫的, 可能還有通過第三方, "種cookies"的方式來實現的, 比如baidu的各種統計服務, sdk也可以聯動, 參考百度隱私權保護聲明:

3. Cookie和匿名標示符等工具。cookie主要的功能是便於您使用網站產品和/或服務,以及幫助網站統計獨立訪客數量等。運用cookie技術,百度能夠為您提供更加周到的個性化服務,並允許您設定您特定的服務選項。
當您使用百度產品或服務時,會向您的設備發送cookie。當您與我們提供給合作夥伴的服務(例如廣告和/或推廣服務,以及可能顯示在其他網站上的由百度提供的服務功能)進行交互時,我們允許cookie或者匿名標識符發送給百度伺服器。
您可以選擇拒絕 cookie。您可以通過修改瀏覽器設置的方式拒絕cookie。如果您選擇拒絕cookie,則您可能無法登錄或使用依賴於cookie的百度服務或功能。
如果您不希望在您訪問百度聯盟網站時,百度基於cookie向您提供個性化的推廣信息,可以通過個性化配置限制百度對cookie的使用。
4. 以上數據信息都採用匿名的方式。同時,我們也會對信息採取加密處理,保證信息的安全性。

你可能訪問了一些頁面, 頁面用了百度的站長服務, 那麼和你機器標識關聯的cookie就可能和你訪問頁面的內容相關的關鍵字關聯了(比如你用百度搜了個打嗝吃什麼葯, 點擊去網站隨便看看, 再點點廣告), 然後今日頭條是百度的合作夥伴, 所以他可以通過百度的介面, 拿到你的那個cookie, 接著得到你的關鍵字, 然後用來優化他的內容推送, 我覺得大致原理就差不多是這樣吧.

補充v1: 看了其他一些分析, 還有一種可能:你把"隱私"通過輸入法交給了輸入法大數據後台, 然後頭條拿到了, 感覺這個途徑也挺有戲, 可以看看用的輸入法有沒有類似的隱私協議.

然後說說我自己的經歷, 和今日頭條沒關係, 和百度有點關係:

有次犯痔瘡, 我在家裡用ipad+pc, 搜索過相關的解法, 點過醫院的鏈接(注意, 我沒有用我的手機). 然後後邊幾天google ads, 百度推廣, 都有出現多一些的腔腸醫院之類的廣告. 亮點來了: 後來我當地的肛腸醫院給我打電話了, 問我有沒有什麼諮詢的. 我挺有可能用ipad和pc之前通過搜索引擎進去過他們家的官網, 但是沒有用手機搞, 但為什麼醫院能有我的電話呢?

可能的原因:

1. 有可能是我記錯了, 我用了手機在百度搜了. 這樣cookie基本能和手機號關聯起來, 醫院通過百度能拿到我的電話.

2. 也有可能是因為我在家裡上網啊, 家裡統一有一個外網ip, 我路由從不關機, 外網ip非常穩定, 再加上我也會用手機號註冊各種小網站, 所以手機號就和ip地址, 和電腦上的cookie啊關聯起來, 醫院可能在它那個百度推廣的後台, 直接就看到我的電話啦.

3. UPDATE: 評論中有為朋友說道 "訪客QQ手機號"這樣一種公司, 原理上大概也是使用種cookies, 通過某些跨域請求, 拿到"你送上去某家服務商的"隱私, 如果誰接過這種服務, 也可以分享下它的能力.

4. 想不到其他可能原因了.


再說一個事兒, 百度高精準定位:

你用電腦或者手機, 打開 HaoIP.CN 這個查ip鏈接, 看看他的高精準定位, 是不是能定位到你家? 你看看我的:

定位的已經很准了, 這也只是一個免費介面, 估計付費的可以更精準吧:) (原來的 http://ipip.net 也有百度精準的數據, 不知道為什麼現在默認不展示了)

為什麼這麼准, 因為我家有人用了百度全家桶裡邊的某些應用, 或者用的app裡邊用到了百度的定位, 所以就是這樣, 你的隱私不是被竊取的, 而是你送上去的啦.

---

update: 評論裡邊說百度地圖暫無數據了, 貌似是百度關閉了這個api, 不再對咱這種普通人公開了, 所以暫時拿不到高精度了, 只有普通IP定位了. 問下 @這屆百度公關 這個高精度API怎麼不可以用了呀?


這裡太多回答都太瞧得起頭條了。全程監聽mic就數據存儲成本就夠吃一壺了。

不過設備號,ip,這些個人身份識別信息是不應該收集的。

但是瀏覽歷史,記錄這些不包含個人信息的數據在歐洲和北美也都沒有被禁止。


太高估「今日頭條」了,


前面高票回答解釋得比較清楚了,除了對用戶cookie、操作記錄、機型、地域等信息的記錄(BAT都同樣做收集)之外,並沒有額外的信息收集,更談不上「竊聽」。另外,根據和一點資訊作為業務夥伴的深入了解以及很早以前對今日頭條的盡調,可以擔保並沒有什麼內幕勾當。

至於聊到什麼推送什麼,其實和「說曹操曹操到」沒區別,只是心理感受上的錯誤印象。巧合本來就伴隨著一定的發生幾率,沒有巧合反而是不可思議的。陰謀論一方面是對於技術的不了解,一方面是稜鏡計劃等新聞對人的影響(但那是政府),還有就是情感引導的結論總是更有快感。因此,就無怪乎人們會「聽到風就是雨」,相信並傳播一些理性所拒斥的奇談怪論了。

血型、算命、星座之類其實也都一樣。所以像我這種完全無視這些「偽科學」的人,經常在聊天中被人說「你這樣理性人生有什麼意思」。

對嘛,王國維老先生說了:人生中可愛者不可信,可信者不可愛。


慢慢地,你們就會發現。

智能就是交出隱私,隱私越少越智能。


如果你沒有什麼特別的隱私這些就不用在意了,中國安卓軟體很多都這樣,還美其名曰大數據,精準推送,個性化服務。


本來也想提問的,發現已經有了。
這個幾乎是肯定的,只是需要確切證據。
先說為什麼我會懷疑今日頭條竊聽。有一天晚上一個人在家空閑就尋找了一部很多年前很有名的電影,當然現在已經很少人去關注了,看完後立馬用微信跟老公視頻講了電影里的一些情節。第二天習慣性打開今日頭條赫然發現前一天看的電影名列在推薦首頁,這麼巧合的事很難不讓人起疑,於是問我老公,他的也是,為了進一步驗證再借了同事的手機,可同事的今日頭條推薦的就不一樣,這難道還是巧合嗎?!我們除了用微信語音聊過沒有在手機里電腦里有過任何手動輸入,搜索之類的,PS,電影是在電視盒子里看的。
小透明發聲都沒什麼關注,勃大神可否關注讓更多人看到@勃失敗

---------------手機碼字,簡單分割------
感謝大家的關注,感謝對本答案關注的第一個大V鸑鷟鵷鶵。希望足夠多的人關注後能有大神找出實際證據。
關於評論區一些問題的回答也一併更新在這裡。
1.我的手機是IOS10.2系統,老公的手機是安卓,版本號未知(沒問),可見跟手機系統無關。
2.其實正文里已經有了,我是用電視盒子看的電影,因為列表裡里直接有,所以沒有輸入搜索動作,電腦沒開過,看完直接打開微信開始視頻聊天。然後就是第二天今日頭條的推薦了。
----------------第二次更新---------------
以下來自評論區的解釋可能是正解,歡迎其它不同的見解。

個人感受:即使不是監聽,個人信息如此的被倒賣,獲利方卻不用付任何法律責任,大數據時代,好像人人都得到方便,確是以犧牲每個人的隱私並被過度使用為代價換來的,關鍵,還不需要你的任何授權。
--------------------2017.2.12-----------------
剛看到類似疑問,但故事背景不同的提問,希望能有更多看法,先不論這些APP有沒有必要做竊聽,大神們只從技術方面探討有沒有這樣的一種可能

http://www.zhihu.com/question/50518883

-----------------2017.02.14----------------
終於等來了擼起袖子直接找真相的答主
http://www.zhihu.com/question/41763190/answer/146075068


兩年前加入諸葛,當時對數據對用戶畫像還沒有特別敏感和清晰的認知,直到看到:

圖片來自諸葛io官網的demo數據

是的,當時我有點驚,可能外行的人看到也會比較驚訝,跟兩年前的我一樣,稍微解釋一下,這是一個單個用戶畫像模塊兒,左邊是一個人的基本信息,我們定義為屬性信息,右側是他的行為信息,可以理解為幾點幾分做什麼事,點了什麼,看了什麼;每一次打開和退出應用會記為一次會話(session),在每個會話中會包含用戶這次使用時的環境信息,比如通過ip解析出來的國家身份城市,以及硬體設備,網路環境等等。

以上其實可以說是數據的採集環節,他會包含追蹤用戶的行為並基於時間序列記錄,以及用戶識別兩大技術,在行為追蹤細說的話有現在的多種採集方式,大概有有埋埋點、全埋點、可視化埋點、服務端採集四種方式吧(關於這四種埋點方式的說明、優劣勢以及怎麼埋這篇文章比較詳盡 詳解埋點 )。有了這些數據,相當於是構建了單體畫像模型,也就是來訪的每個用戶都有這麼一張圖:

用戶列表

說完用戶畫像構建,接下來就是怎麼分析了,我不可能一個個點的看對吧,這就是分析模型的事情了,常用的分析模型有漏斗、留存,展現形式有表格、柱形圖、折線圖、熱圖各種樣子吧,這些其實相對好理解,當然,為什麼在有了百度、友盟這樣的工具以後,還會有基於用戶行為數據這樣的統計分析平台,雖然都是針對互聯網產品做些計數和指標計算,背後的根本是,前者真的是只是統計,算數,告訴你所有人都在看的新增、活躍、留存、停留時長這些指標,你沒法看到數據背後的人,沒法針對運營,以及這些指標根本不能滿足當前互聯網環境下的產品運營渠道的指導工作,所以有了諸葛這樣的行為數據分析平台,除了給你那些常看的數據指標,也會從業務價值層面提煉一些分析模型。基本的比如自定義留存:

自定義留存

留存的意思是,來過還來的人有多少,算出百分比,來的定義就是只要是打開就行,但現在不一樣了,不同的平台對來的定義不一樣了,閱讀產品會認為用戶來了看了一篇文章才算今天一個留存,電商產品會認為用戶看了一個商品才算今天一個留存。比如上圖,我不管你的初始是什麼,只要回來的時候是沖著看一次理財產品,那我才認為你是一個有效留存。

當然,除了對原有模型的升級,我們也抽象出了其他的「模型」,比如你在用戶分群的時候,在選擇「查看過商品詳情」的用戶的時候,會發現有個維度是「新增於」,也就是用戶觸發看商品詳情這件事是發生在新增後的1天,2天還是1個月內的,同理,用戶在你的金融產品上完成支付是在新增當天還是新增30天後,不同的時間範圍內篩出來的用戶價值是不一樣的:

好吧,關係分析其實很還有很多,比如當有了產品的很多數據,產品改版評估這些事情可不可以直接自動化,因為版本號,用戶使用情況都有記錄,完全可以自動化實現,比如渠道分析,用戶來源、用戶轉化都標記了,能不能有一個功能模塊兒進去就是各種渠道對比,其實這些在諸葛已經都實現了,當然,做的再炫,他也只是分析層面的事情。

採集、分析已經把諸葛2年做的事情說完了,接下來可能就更有意思了,能看到、能分析衡量出來還不夠,客戶要能有所行動,數據低了那該怎麼辦?其實就到了今年我們的重磅級產品,智能觸達,這樣也就實現了諸葛短期內的產品矩陣,實現了用戶行為數據從採集、分析到應用的產品生態。用老闆 @孔淼 常說的三個高大上的詞兒是Data-Insight-Action。

簡單說說Action。其實題主提到一個場景,當我幹嘛的時候就正好收到相關的產品購買啦這樣的推送。這其實就是行為數據的應用了。簡單理解這個模型就是:在什麼時機、給什麼樣的人、以什麼樣的方式、推送什麼樣的東西,當然,還有一個很重要的點就是效果怎麼樣。這樣就從策略到執行到衡量迭代形成了閉環。仔細想想,其實這樣的策略可以有上百種,並且完全自動化實現,截個圖,別怕:

解釋一下:所有人,只要滿足了其中的某一個條件,就會收到某一個定製的推送,具體是簡訊、push還是郵件有執行方基於場景自動設置,比如流失召回類的,可能用戶已經卸載了,那發簡訊比較合適。

好了,其實在採集、分析、應用三個大環節都串了一個遍,也算是目前行業內做的比較完整。回到題主的問題,兩個關鍵詞「竊取」「隱私」。「竊取」其實答案中有人定義的已經很好的,其實談不上,如果算作隱私,這些數據確實是用戶的隱私。比如用戶屬性層面的東西,你是誰,手機號、真實姓名、身份證號,以及你看了什麼,買了什麼都是用戶的隱私。好在大概今年上半年,國家出了規定, 很多產品加入了隱私協議,明確告訴用戶你們會記錄什麼,以及用來做什麼,用戶可以選擇授權也可以不授權,當然,有人或有平台只是知道了存儲了我的信息只要你不利用也算是隱私得到了保護,如果你利用這個東西為我提供你產品範圍內合理有效的服務也是好的,怕就怕你拿到我的數據做些別的生意。

最後還得澄清一下,我們雖然是第三方數據服務公司,但我們提供的是技術解決方案,企業花錢購買的是我們的平台、我們的數據驅動顧問的分析諮詢服務,企業有哪些數據,用戶授權你採集哪些數據,在你的賬號下在諸葛的平台看到的就是哪些數據,舉個簡單的例子,有個金融客戶問,你們有用戶的旅遊、電商這類數據嗎?對不起,我們是沒有的,你有什麼,傳到後台什麼,在後台就能看到什麼,利用諸葛的分析模型就能展示什麼。

好吧,打住了,這個東西其實很敏感的,多說無益,最後,希望這些內容讓大家對行為數據這塊兒的東西有所認知,當然,其實背後還有很多話題,比如風控、 人工智慧等等,以上只是當前技術應用環境下我個人所看到的,以及工作中接觸的一些東西,難免會有狹隘,見諒。

以上~

關於我們:

諸葛io定位於為企業提供基於用戶行為數據的採集、分析和營銷的整體解決方案。是國內領先的數據智能服務商 www.zhugeio.com

目前我們正在為互金/教育/新零售/保險/汽車等行業提供大數據整體解決方案並提供諮詢服務。服務客戶有:光明隨心訂、食行生鮮;人人貸、陽光保險、眾安保險、平安;寶馬、奧迪、大眾、NEVS;餓了么;東易日盛等

關聯閱讀:

客戶:東易日盛 | 向上金服 | 光明隨心訂 | TutorABC | 麥子學院

指標:病毒傳播係數 | 復購率 | 粘性 | 漏斗 | 太陽圖 | KPI

行業:新零售 | 在線教育 | 科技金融 | 共享單車 | 裝修 | 內容社區

產品:改版評估 | 埋點需求文檔 |

運營:用戶運營 | 跨應用市場追蹤 | 推送策略 | 運營階段

市場:推廣三要素 | 智能觸達 | 精準推送

其他:行為數據基礎篇 | 客戶成功 | 採集模型 | 廣告監測


這怎麼算竊聽,無稽之談!

你使用免費APP的代價就是用自己潛在的廣告價值交換。

「我是潛在廣告受眾,快給我展示廣告,快給我展示廣告,快快快!」

再說說竊聽,如果你談論的話題僅僅是口頭交流或者電話語音交流,前後幾天沒有通過微信語音、語音識別輸入法、鍵盤輸入法、瀏覽器搜索,那麼你依然看見相關廣告推送,這才可能是竊聽。

除此之外,不用竊聽而獲取用戶的信息易如反掌,而且並不違法。

也許題主需要好好看看用戶協議了。


你再說說AV女優,看看能不能出來種子。


首先我絕不懷疑題主描述的真實性,因為Android還真是有可能能默默監聽。

1.我的手機是IOS10.2系統,老公的手機是安卓,版本號未知(沒問),可見跟手機系統無關。
2.其實正文里已經有了,我是用電視盒子看的電影,因為列表裡里直接有,所以沒有輸入搜索動作,電腦沒開過,看完直接打開微信開始視頻聊天。然後就是第二天今日頭條的推薦了。

作者:修行的魔
鏈接:今日頭條在竊聽? - 修行的魔的回答 - 知乎
來源:知乎
著作權歸作者所有,轉載請聯繫作者獲得授權。

這裡有個回答提到用的是iOS,讓我本來的推測也不成立了。
因為用微信講話的話,就算是iOS也不應該被今日頭條獲取到……

思考良久,倒是讓我想到了一種可能……
竊聽確實做不到,但是監控剪貼板卻是有可能的,是否是聊天的時候複製了什麼信息呢?

——————————————————————
新增內容:
寫了篇文章探討這個問題,貼一部分:

輸入法

如果是輸入法,可能的數據通路是這樣的:

用戶輸入了『電飯煲』這樣的關鍵詞,於是輸入法為這個 IMEI 或者 IDFA 或其他身份ID(例如手機號)打上了一個『電飯煲』(可能是商品或者興趣標籤下的二級標籤)的標籤。

今日頭條獲取到輸入法這邊提供的數據,可能是通過DMP,也有可能是更直接的合作,雖然事實上並沒有聽說過今日頭條和主流輸入法有過合作。

核心思路:從手機使用軌跡中提取信息

可能性:??????


麥克風

監控微信視頻時的麥克風,理論上並不難。但是首先我們可以排除掉微信和今日頭條合作,那麼就不可能是微信本身在監控麥克風。

在這樣的情況下,就只有手機廠商自己有可能監控微信視頻時的麥克風了。

蘋果監控用戶麥克風可能么?可能。

蘋果監控用戶麥克風後,數據給今日頭條,可能么?不太可能。

核心元素:系統級許可權

可能性:??


電視盒子

電視盒子理論上能拿到一個用戶的實際身份(包括手機號、姓名等),也有可能用戶用手機在盒子里註冊過,有簡單的用戶數據。

在這樣的情況下,通過手機號與今日頭條的賬戶體系成功匹配,將用戶對『電影XXX』感興趣的信息傳達給今日頭條,邏輯上也並無問題。

至於一位答主提到:

第二天習慣性打開今日頭條赫然發現前一天看的電影名列在推薦首頁,這麼巧合的事很難不讓人起疑,於是問我老公,他的也是

理論上,雖然夫婦二人從未告知今日頭條是夫婦,但是不排除在某一個賬戶體系里,他們已經是夫婦或者是親密關係(比如同一個MAC地址的路由器),於是在今日頭條的賬戶體系里,認為他們也是夫婦或者非常親密的關係,推薦相同的內容也並無意外。

這裡盒子扮演了一個『為了蠅頭小利出賣數據』的角色。

核心元素:多個賬戶體系互相映射補全

可能性:????????


以上是對三位嫌疑人的分析,但是綜合考慮已知條件,恐怕輸入法和電視盒子均扮演『賣數據』角色,另有DMP從中協調,才是最高效的方案。

文章地址:今日頭條竊聽用戶了么?

——————————————————————

此外,在iOS10上開啟『限制廣告追蹤』並不能解決這個問題,因為『限制廣告追蹤』的作用是將自己的IDFA(理解為iPhone手機識別碼)設置為00000000-0000-0000-0000-000000000000
對於今日頭條這樣有用戶體系的APP來說,登錄的用戶不需要IDFA做標識,沒登錄的用戶也有足夠的信息標識你的身份。

結論:建議刪除今日頭條~


還有個竊取手機隱私的支付寶
人家可是提取音頻跟攝像頭拍攝確立大數據的
現在也沒人提了


@Gohan 的答案比較經典,隱私被侵犯習慣了,也就不算隱私了:既不隱也不私,成了公共場所。

最厲害的是,今日頭條啊百度啊什麼別的阿貓阿狗應用全家桶啦也沒藏著掖著,明明白白告訴你,他們就是要去你手機四處搜集,明明白白告訴你,搜集來的數據要賣給別人共享。


實名反對@atfdcwd的答案。別沒事總想搞一個大新聞。

題主的問題很奇怪,你可以嘗試了解一下,cookie mapping和retargeting的邏輯。

參考書籍《計算廣告學》

說一種潛在的可能,你用某東,搜索過電飯煲,在頭條APP中就會看到

`電飯煲`的廣告。這在PC時代叫做cookie mapping;在移動互聯網中叫做retargeting。

翻譯成中文叫做:重定向。


同樣的邏輯,對於微信也適用,因為某東和企鵝有深入的合作呀。


另外,任何一個大型的廠商,華為、小米、BAT等等,都會獲取用戶的基礎數據,包括諸如運營商,網路環境,設備唯一標識(IDFA、IMEI)等信息。

不信你去看看淘寶拿的東西,絕對不比頭條少。


這些信息,在廣告領域,單純用於定向,也就是,你通常在各種PR文章中看到的,精準定向、經傳營銷等話術。


寫到這兒吧,這個問題,簡直就是智商篩選機,有問題歡迎評論。


現在的軟體太多流氓,安裝以後一定要自己設置軟體許可權,下面是我的


用你的上網訪問信息做成廣告已經成為普遍做法。如果你現在說今日頭條這樣做,你為什麼不敢說百度怎麼做呢!
曾經某年的315晚會曾報道過這件事。但是並沒有什麼卵用,人家大公司仍然採用。而且你可以看看用戶使用條款,說不定在把一行中就有了允許。
其實這種做法如果只廣告也沒有什麼
但是他們真的只會那麼做嗎?


最下面那條


推薦閱讀:

特朗普反對全球化並且要把製造業移回美國能否成功?
天津濱海新區爆炸後會對天津經濟產生什麼樣的影響?
蘭州新區的發展前景如何?
「絲綢之路經濟帶」的設想是否合乎情理?有哪些實施的難點?
互聯網經濟是否創造價值?

TAG:經濟 | 科技 | 互聯網隱私 | 雜談 | 今日頭條應用 |