數據分析的基本思路

05-15

分為幾個部分來講解吧。

1.對比分析

我原來從事藥品招商，假設我有某醫院17年兩種藥品A,B的銷售數據，我畫出了這兩個產品的折線圖和柱狀圖。

我們可以看到這兩個藥品在1到12月份的銷售狀況的對比，為了更清晰的看到兩個藥品銷售的差異，我們可以把兩個藥品的差值畫出折線圖。

這樣就能很清晰的對比出那個月份那個藥品銷售的多。

2.分布分析

數據的大致分布情況。比如我們在看一個網站訪客來源可以畫出一下一張圖，可以清楚的看到訪客的來源大部分來源於搜索引擎，而搜索引擎中佔比最大的是百度，這樣我們就能有針對性的進行改進。

再比如說我們現在有一份數據，某地區房屋的單價、總價、經緯度。我們就能畫出如下的圖。

其中點越大代表房屋的單價越高，顏色越深代表房屋的總價越高，可以看到有些點特別大但是顏色很淺，就能說明這些房子或多或少存在一些問題。

我們還可以看到參考總價的頻率分布圖。（直方圖）

可以看到這個地區的房子總價主要集中在175萬以上60萬以下。

3.統計分析（describe)

主要是集中度，和分散度的分析

（均值，眾數，中位數，方差，分位數）

在numpy 中，常用的函數

均值：mean

眾數：mode

中位數：median

一般處理日常數據的時候，我們偏愛對稱的數據，因為對稱的數據符合或者近似正太分布，這時候使用平均數，中位數，眾數用來描述數據集中趨勢是差不多的。數據偏態情況下，這三個統計量差別很大。

標準差：std

方差:var

標準差越大，離中趨勢越明顯

4.正太分布和正態性檢驗

正太分布的檢驗：1直方圖；2QQ圖判斷；3K-S檢驗

1.直方圖

很明顯服從正太分布

2.QQ圖判斷

QQ圖是繪製一個散點圖，橫坐標是每一個值得百分位置，縱坐標就是它的值。最後看他們是否在一個直線上，如果在，就是正太分布。

正太分布的QQ圖應該是一條s型曲線,而且點的值落在圖示藍線上。

3.KS檢驗

比較現有的頻率分布和理論頻率分布。

from scipy import stats

stats.kstest(樣本，norm,(u,std)) u是指樣本的期望（均值），std指的是樣本的方差

大於0.05就是正太分布。

5.帕累托分析（貢獻度分析）

（二八法則，舉例：某醫藥銷售公司的利潤的80%是由他20%的客戶來實現的。那麼，我們在實際工作中只要搞定那20%的客戶就OK了。帕累托分析就是要找到這些20%的關鍵性因素。）

從網上截取了一張圖，具體怎麼畫可以看Python畫圖案例

這說的可能是某產品退貨的因素，有78%的退貨是因為劃痕和起泡造成的，作為生產廠家應該嚴格把控這兩個因素。

6.相關性分析法

散點圖：看是否有線性關係常用函數scatter 和scatter_matrix（散點矩陣）

舉例

皮爾遜相關係數和斯皮爾曼相關係數

皮爾遜 corr（應用於服從正太分布的數據）

r在0.5與0.8之間，顯著相關

r大於0.8，高度相關

斯皮爾曼相關係數（用於不服從正態分布的數據）corr(method=spearman)

r在0.5與0.8之間，顯著相關

r大於0.8，高度相關