數據分析的基本思路

分為幾個部分來講解吧。

1.對比分析

我原來從事藥品招商,假設我有某醫院17年兩種藥品A,B的銷售數據,我畫出了這兩個產品的折線圖和柱狀圖。

我們可以看到這兩個藥品在1到12月份的銷售狀況的對比,為了更清晰的看到兩個藥品銷售的差異,我們可以把兩個藥品的差值畫出折線圖。

這樣就能很清晰的對比出那個月份那個藥品銷售的多。

2.分布分析

數據的大致分布情況。比如我們在看一個網站訪客來源可以畫出一下一張圖,可以清楚的看到訪客的來源大部分來源於搜索引擎,而搜索引擎中佔比最大的是百度,這樣我們就能有針對性的進行改進。

再比如說我們現在有一份數據,某地區房屋的單價、總價、經緯度。我們就能畫出如下的圖。

其中點越大代表房屋的單價越高,顏色越深代表房屋的總價越高,可以看到有些點特別大但是顏色很淺,就能說明這些房子或多或少存在一些問題。

我們還可以看到參考總價的頻率分布圖。(直方圖)

可以看到這個地區的房子總價主要集中在175萬以上60萬以下。

3.統計分析(describe)

主要是集中度,和分散度的分析

(均值,眾數,中位數,方差,分位數)

在numpy 中,常用的函數

均值:mean

眾數:mode

中位數:median

一般處理日常數據的時候,我們偏愛對稱的數據,因為對稱的數據符合或者近似正太分布,這時候使用平均數,中位數,眾數用來描述數據集中趨勢是差不多的。數據偏態情況下,這三個統計量差別很大。

標準差:std

方差:var

標準差越大,離中趨勢越明顯

4.正太分布和正態性檢驗

正太分布的檢驗:1直方圖;2QQ圖判斷;3K-S檢驗

1.直方圖

很明顯服從正太分布

2.QQ圖判斷

QQ圖是繪製一個散點圖,橫坐標是每一個值得百分位置,縱坐標就是它的值。最後看他們是否在一個直線上,如果在,就是正太分布。

正太分布的QQ圖應該是一條s型曲線,而且點的值落在圖示藍線上。

3.KS檢驗

比較現有的頻率分布和理論頻率分布。

from scipy import stats

stats.kstest(樣本,norm,(u,std)) u是指樣本的期望(均值),std指的是樣本的方差

大於0.05就是正太分布。

5.帕累托分析(貢獻度分析)

(二八法則,舉例:某醫藥銷售公司的利潤的80%是由他20%的客戶來實現的。那麼,我們在實際工作中只要搞定那20%的客戶就OK了。帕累托分析就是要找到這些20%的關鍵性因素。)

從網上截取了一張圖,具體怎麼畫可以看Python畫圖案例

這說的可能是某產品退貨的因素,有78%的退貨是因為劃痕和起泡造成的,作為生產廠家應該嚴格把控這兩個因素。

6.相關性分析法

散點圖:看是否有線性關係常用函數scatter 和scatter_matrix(散點矩陣)

舉例

皮爾遜相關係數和斯皮爾曼相關係數

皮爾遜 corr(應用於服從正太分布的數據)

r在0.5與0.8之間,顯著相關

r大於0.8,高度相關

斯皮爾曼相關係數(用於不服從正態分布的數據)corr(method=spearman)

r在0.5與0.8之間,顯著相關

r大於0.8,高度相關


推薦閱讀:

數據分析師需要學習什麼軟體
七周數據分析師:第二周業務篇,有關業務思維的學習。
感恩有你,相互成就

TAG:數據分析師 | 數據挖掘 |