知乎核心用戶大數據報告:你知道知乎的男女比例是多少嗎?
01-31
最近寫了個爬蟲,將知乎3W核心用戶的公開資料爬了下來。雖然知乎聲稱註冊用戶有6500萬,日活躍用戶有1850萬,但其中很大一部分用戶是三無用戶。由於該部分用戶公開的數據並不多,再且新版知乎伺服器對於單IP最大請求量有限制(大概每秒一次左右),所以我只爬了最核心的3W用戶。我的爬蟲規則是這樣的:從關注量上萬的知乎大V中隨機抽取10個作為種子,依次爬取其關注的人,再從其關注的人爬取關注的人的關注的人,如此遞歸。也就是說爬蟲的規則保證了進入資料庫的每一個人至少有一個關注者。以下的數據分析均來自於爬蟲所得到的資料,所以要是報道上面出了偏差,還請大家見諒。首先是對知乎用戶的職業描述進行詞雲分析,列出前一百的高頻詞,結果如下。
可以看到北京大學和清華大學的詞頻不相上下,後面那三位還需加把勁啊。在移動智能時代,Android、iOS、WEB前端工程師在當今軟體開發中簡直大放異彩。那麼知乎哪一種程序員最多呢?
推薦閱讀:

首先是最高贊同數的排行榜。



@Phil 以極高的產量勇奪答案數最高Top1,而素有」輪帶逛「之稱的@vczh 只能屈居第二。排行前五的有@王若楓 、@柴健翌 、@zhen-liang 等大V。
再來看看提問最多排行榜。





詞頻集中分布在北上廣深杭四川浙江江蘇等地方。和個人的主觀印象是相似的。畢竟以上顏色較深的都是互聯網行業比較發達的省份。
然後就是大家最關心的知乎男女比例問題了。

臨走前扔上項目的Github地址:https://github.com/hating/ZhihuTrend 。
歡迎大家來Star~~~<EOF>推薦閱讀:

