向著數據分析前進

向著數據分析前進

1 人贊了文章

我是誰--從哪來--到哪去

芸芸眾生中的一員,計算機專業畢業,畢業頭三年一隻互聯網行業程序猿,後三年在一家快銷轉型互聯網的公司從事技術和產品相關的工作。經歷過移動互聯的瘋狂,也感受過傳統行業慢慢滑向衰微。

經歷和工作年限的增加,也讓我對商業行為有了更深的感受和困惑,什麼樣的商品更容易被用戶所接受?什麼樣的促銷可以帶來更好的結果?……其實原來一切都可以通過數據來給出答案,所以希望可以通過數據分析和學習掌握一種認識世界方法並學以致用成為一名商業(零售電商)分析師。

爬蟲--Excel

問題定義

說道電商就一定要提到某寶,加上過往三年的工作讓我對食品快銷行業有了一定的了解。因此選擇在某寶上爬取休閑食品品類下的商品進行分析。

  1. 抽取五個較知名品牌在某寶上休閑食品分類下的銷售情況
  2. 某寶上休閑食品分類下商品店家在不同省市的分布比例情況

獲取數據

爬蟲的篩選條件:

在搜索框中輸入「休閑食品」進行搜索篩選,除此之外為添加其餘篩選項

在爬蟲爬取信息過程中由於爬取太過頻繁,網頁要求登錄,更換IP地址後對爬取頻率進行限制,最後完成全部信息的爬取,共爬取信息8329條。爬取的信息欄位有

標題、標題鏈接(詳情頁鏈接)、購買人數、價格、商店名、省市

說明:

  1. 商品名和詳情頁鏈接共同作為信息的去重標記
  2. 商品、品牌和熱搜關鍵詞等信息從標題中提取
  3. 商店名用於去重和省市信息一起用於統計計算商家的分布
  4. 購買人數以及價格用於統計計算銷量

數據清洗和處理

首先對原數據進行備份,防止在處理過程中發生錯誤操作導致數據丟失

  1. 知名品牌在某寶的銷售情況

數據清洗:利用詳情頁鏈接進行數據去重(擔心商品重名或是商品名被改的情況,同樣商品的詳情頁應該是一樣的,所以最開始時選用鏈接進行去重),剩餘8266條數據。但是發現用商品名進行去重,剩餘5575條數據??(推測是鏈接所帶參數不同導致,其實應該是同一個詳情頁面,用商品名進行透視找出有多個鏈接的商品名抽取了幾條進行驗證,和推測結構一致,因與分析本身關係不大後未深究)最後將商品名和商店名拼接再去重後,剩餘數據5689條數據(還是存在商品同名的情況)

數據分析:根據知名品牌的列表利用find函數統計知名品牌的購買人數,在爬蟲爬取的數據中,這五個品牌對應的購買人數佔總人數的31%,這些知名品牌在某寶上的銷售情況相比其他品牌具有一定的優勢,但並沒有出現佔據所有市場份額的情況(其實應該統計出有多少品牌,所有品牌對應的購買情況更能支持該結論)

2. 商店在不同省市的分布情況

數據清洗:直接用商店名進行去重,獲得2484條數據

數據不全:用空格進行數據分列,獲得省份和城市的信息,其中直轄市對應的城市信息為空,直接用直轄市名進行補全

數據分析:利用數據透視表統計出每個城市對應的商店數,然後繪製圖表,從圖中可以很明顯看出某寶上經營休閑食品的門店主要集中在的城市和分布比例

後期實踐計劃

評估自身與目標的gap:

  1. 無數據處理和分析的方法和經驗
  2. 計算機專業有數學和程序的基礎,但在數據分析的細分方向上的數學和程序以及一些工具(如excel)還需要補足
  3. 表達能力不足,需要加強

路徑

  1. 剩餘6課在5周內完成,與猴子社區小夥伴一起進步,建立數據分析的基礎方法養成數據分析的思維
  2. 補充額外的書籍計劃,包括統計學和SQL、Python在數據分析領域應用的書籍先各選一本進行閱讀,在11月中旬完成
  3. 參加Kaggle比賽,同時將輸出對應題目的分析記錄和結論,提升數據分析能力的同時鍛煉寫作溝通能力

推薦閱讀:

活著就必須要努力,為什麼?
【經典書評】痛苦、磨難、問題就是生命的意義
無數生命未曾綻放的一天
人生究竟有多長?寫到心窩裡去了!
《活出生命的意義》後感

TAG:生命 | 生命的意義 |