糗事百科數據淺析
04-27
寫在前面的結論1,寫糗事百科的男性佔比高於女性2,年齡段集中分布在20到30歲3,喜歡寫小段子,不喜歡發圖片4,一入糗百深似海,從此節操為路人
寫糗事百科男性佔比64,是屌絲太多,還是男女比例失衡
數據分析圖表在文章底部
源碼在文章底部有鏈接抓取數據格式如下圖:
1,目標鎖定 糗事百科 抓取 24小時爆笑笑話大全,糗事百科網頁結果簡單,布局清晰,沒有設置防盜鏈,也不需要登錄就可以訪問,抓去難度3星。方便新手上路
2,抓取環境,需要python環境,本人的python 2.x版本,菜鳥應該知道怎麼安裝。
3,抓取源代碼(鄙人借鑒了前人的經驗),畢竟走別人走過的路更好走,實際操作中,優化代碼,代碼功能實現。回車鍵 分條讀取百科內容,也可批量讀取多頁數據,保存到本地文件。
主要欄位: 用戶昵稱,性別,年齡,糗事內容,是否有圖,點贊數,喜歡數。




hive表如下:
hive> load data local inpath /home/work/heyu/qiuxi24_data overwrite into table tmp.test_qiuxi_24_data
數據完美寫入
5,通過hql對數據進行聚合:

6,分析數據圖
從下圖可以看出,用戶發布的糗事不添加圖片的佔比為百分之84。是不是製圖發圖的時間成本高,希望糗事百科能支持圖片在線編輯功能,收藏,轉發來刺激用戶發圖。








源碼下載https://gist.github.com/aherain/761b42cad7e850a99397829d48cbe4fc
推薦閱讀:

