大數據分析第二講筆記

01-24

大數據分析第二講筆記

R是運行環境，RStudio是開發環境

一、RStudio界面介紹

Workspace (左上角)
Console (左下角)
Environment、History (右上角)
Files、Plots、Packages、Help、Viewer (右上角)

Workspace

剛開啟時不會存在，可以在左上角有一個開啟新文件的icon，選擇一個新的R script檔案，這邊主要是用來撰寫程式碼的部分。

Console

用來執行程式碼的地方，在Workspace選取欲執行的程式碼，按下Ctrl+Enter就會發現程式碼自動在Console執行完成。

Environment、History

l Environment:是用來記載目前變數的數值，方便查看目前變數的狀況。

l History:是所有在Console執行過程式碼的歷史記錄。

Files、Plots、Packages、Help、Viewer

Files：是讓使用者了解所在的工作環境是在哪個目錄，這個對讀取檔案非常重要。

Plots：顯示示使用者畫好的圖表。

Package：記錄目前已安裝的 Package，打勾代表已經載入，安裝 Package 請選擇「Install」。

Help：查詢文件使用，在 Console 輸入 help()，() 輸入所要查詢方法的名稱，ex：help(sum)。

Viewer：是用來顯示網頁或 html file。

二、包的使用方法

包是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。

計算機上存儲包的目錄稱為庫（library）。函數.libPaths()能夠顯示庫所在的位置，函數library()則可以顯示庫中有哪些包。

#包的安裝

install.packages(「gclus」)

#包的載入

library(gclus)

三、數據結構

數據結構包括向量、矩陣、數組、資料庫、列表、因子。

1.向量：向量是用於存儲數值型、字元型或邏輯型數據的一堆數組。

2.矩陣：矩陣是一個二維數組，只是每個元素都擁有相同的模式（數值型、字元型或邏輯型）。可通過函數matrix創建矩陣。一般使用格式為：

Matrix(vector，nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))

其中vector包含了矩陣的元素，nrow和ncol用以指定行和列的維數，dimnames包含了可選的、以字元型向量表示的行名和列名。選項byrow則表明矩陣應當按行填充（byrow=TRUE）還是按列填充（byrow=FALSE），默認情況下按列填充。

如何訪問矩陣中的元素？

a[i,]指矩陣x中的第i行，a[,j]指第j列，a[i,j]指第i行第j個元素

3.數組，數組（array）與矩陣類似，但是維度可以大於2。數組可通過array函數創建，形式如下：

array(vector,dimensions,dimnames)

其中vector包含了數組中的數據，dimensions是一個數值型向量，給出了各個維度下標的最大值，而dimnames是可選的、各維度名稱標籤的列表。

4.數據框，形式如下；

Data.frame(col1,col2,col3,col4...)

通過$和列表名來選取數據框中的某一列

#查找

age1 <-patientdata$age

#選取一部分

Subdata <-patientdata[c(「diabetes」,「status」)]

#有多少個病人

patientNumber <- nrow(patientdata)

#查找「1型糖尿病」的病人

type1 <-patientdata[patientdata$diabetes==「1型糖尿病」，]

#統計病人數

Type1.number <- nrow(type1)

#增加數據

Patentdat <- rbind(patientdat,newPatient)

#增加列

Patientdata <- cbind(patientdata,inTime)

5.列表：集合各個數據結構，形式如下；

List(name1=object1,name2=object2,name3=boject3...)

#有多少病人

patientNumber<- nrow(patientdata)

#患「1型糖尿病」人的信息

type1 <- patientdata[patientdata$diabetes ==「1型糖尿病」，]

#有多少病人

Kpi <- list(diabetesType1=type1,number=number)

#獲取列表中的kpi:病人數目

number <- kpi[[「numner」]]