(學習筆記)利用python進行數據分析(二):一些範例數據集
在日常工作中,數據處理類的任務主要包括以下幾類:
與外界進行交互:讀寫各種數據文件及資料庫。
準備工作:對數據進行清理、修整、整合、規範化、重塑、切片切塊、變形等處理以便於進行分析。
轉換:對數據集進行數學統計運算產生新的數據集。(比如根據分組變數對一個大表進行聚合)
建模和計算:將數據與統計模型、機器學習演算法或其他計算工具聯繫起來。
展示:創建互動式或靜態的圖片或文字摘要。
利用pandas對http://1.usa.gov數據時區進行計數:
DataFrame是pandas中最重要的數據結構,用於將數據表示為一個表格:





還可以對這種類型的數據進行許多處理,以a欄位為例,我們可以將a欄位的第一節分離出來,得到一份用戶行為摘要:

現在可以按照Windows和非Windows用戶對時區統計信息進行分解:





MovieLens 1M數據集
該數據集是一組電影評分數據,分為三個表:評分、用戶信息和電影信息,可以通過pandas.read_table將每個表讀到一個DataFrame對象中:



找出男性和女性觀眾分歧最大的電影:


1880-2010全美嬰兒姓名
該數據集按年度分割成了多個文件,利用pandas.concat將所有數據組裝到一個DataFrame里,並加上一個year欄位:

將names數據在sex和year級別上進行聚合:


插入一個prop列,用於存放指定名字的嬰兒數相對於總出生數的比例:

驗證所有分組的prop總和是否為1:


幾個男孩和女孩名字隨時間變化的使用數量:


這一章主要給出了一些示例數據集,並講解了一下我們能對這些數據集做什麼,僅僅提起我們對數據分析的興趣,後續章節還會對本篇使用的方法進行具體講解。
推薦閱讀:
※如何用python的sklearn的機器學習,實現簡單線性回歸分析?
※R語言實戰第八章:回歸
※大數據之數據分析精進之路:起跑
※零基礎學習Python數據分析:科學計算庫NumPy(2)
