大數據分析第二講筆記

大數據分析第二講筆記

R是運行環境,RStudio是開發環境

一、RStudio界面介紹

  • Workspace (左上角)

  • Console (左下角)

  • Environment、History (右上角)

  • Files、Plots、Packages、Help、Viewer (右上角)

Workspace

剛開啟時不會存在,可以在左上角有一個開啟新文件的icon,選擇一個新的R script檔案,這邊主要是用來撰寫程式碼的部分。

Console

用來執行程式碼的地方,在Workspace選取欲執行的程式碼,按下Ctrl+Enter就會發現程式碼自動在Console執行完成。

Environment、History

l Environment:是用來記載目前變數的數值,方便查看目前變數的狀況。

l History:是所有在Console執行過程式碼的歷史記錄。

Files、Plots、Packages、Help、Viewer

Files:是讓使用者了解所在的工作環境是在哪個目錄,這個對讀取檔案非常重要。

Plots:顯示示使用者畫好的圖表。

Package:記錄目前已安裝的 Package,打勾代表已經載入,安裝 Package 請選擇「Install」。

Help:查詢文件使用,在 Console 輸入 help(),() 輸入所要查詢方法的名稱,ex:help(sum)。

Viewer:是用來顯示網頁或 html file。

二、包的使用方法

包是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。

計算機上存儲包的目錄稱為庫(library)。函數.libPaths()能夠顯示庫所在的位置, 函數library()則可以顯示庫中有哪些包。

#包的安裝

install.packages(「gclus」)

#包的載入

library(gclus)

三、數據結構

數據結構包括向量、矩陣、數組、資料庫、列表、因子

1.向量:向量是用於存儲數值型、字元型或邏輯型數據的一堆數組。

2.矩陣:矩陣是一個二維數組,只是每個元素都擁有相同的模式(數值型、字元型或邏輯型)。可通過函數matrix創建矩陣。一般使用格式為:

Matrix(vector,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))

其中vector包含了矩陣的元素,nrow和ncol用以指定行和列的維數,dimnames包含了可選的、以字元型向量表示的行名和列名。選項byrow則表明矩陣應當按行填充(byrow=TRUE)還是按列填充(byrow=FALSE),默認情況下按列填充。

如何訪問矩陣中的元素?

a[i,]指矩陣x中的第i行,a[,j]指第j列,a[i,j]指第i行第j個元素

3.數組,數組(array)與矩陣類似,但是維度可以大於2。數組可通過array函數創建,形式如下:

array(vector,dimensions,dimnames)

其中vector包含了數組中的數據,dimensions是一個數值型向量,給出了各個維度下標的最大值,而dimnames是可選的、各維度名稱標籤的列表。

4.數據框,形式如下;

Data.frame(col1,col2,col3,col4...)

通過$和列表名來選取數據框中的某一列

#查找

age1 <-patientdata$age

#選取一部分

Subdata <-patientdata[c(「diabetes」,「status」)]

#有多少個病人

patientNumber <- nrow(patientdata)

#查找「1型糖尿病」的病人

type1 <-patientdata[patientdata$diabetes==「1型糖尿病」,]

#統計病人數

Type1.number <- nrow(type1)

#增加數據

Patentdat <- rbind(patientdat,newPatient)

#增加列

Patientdata <- cbind(patientdata,inTime)

5.列表:集合各個數據結構,形式如下;

List(name1=object1,name2=object2,name3=boject3...)

#有多少病人

patientNumber<- nrow(patientdata)

#患「1型糖尿病」人的信息

type1 <- patientdata[patientdata$diabetes ==「1型糖尿病」,]

#有多少病人

Kpi <- list(diabetesType1=type1,number=number)

#獲取列表中的kpi:病人數目

number <- kpi[[「numner」]]

推薦閱讀:

TAG:R编程语言 | 大数据 |