大數據分析第二講筆記
大數據分析第二講筆記
R是運行環境,RStudio是開發環境
一、RStudio界面介紹

- Workspace (左上角)
- Console (左下角)
- Environment、History (右上角)
- Files、Plots、Packages、Help、Viewer (右上角)
Workspace
剛開啟時不會存在,可以在左上角有一個開啟新文件的icon,選擇一個新的R script檔案,這邊主要是用來撰寫程式碼的部分。
Console
用來執行程式碼的地方,在Workspace選取欲執行的程式碼,按下Ctrl+Enter就會發現程式碼自動在Console執行完成。
Environment、History
l Environment:是用來記載目前變數的數值,方便查看目前變數的狀況。
l History:是所有在Console執行過程式碼的歷史記錄。
Files、Plots、Packages、Help、Viewer
Files:是讓使用者了解所在的工作環境是在哪個目錄,這個對讀取檔案非常重要。
Plots:顯示示使用者畫好的圖表。
Package:記錄目前已安裝的 Package,打勾代表已經載入,安裝 Package 請選擇「Install」。
Help:查詢文件使用,在 Console 輸入 help(),() 輸入所要查詢方法的名稱,ex:help(sum)。
Viewer:是用來顯示網頁或 html file。
二、包的使用方法
包是R函數、數據、預編譯代碼以一種定義完善的格式組成的集合。
計算機上存儲包的目錄稱為庫(library)。函數.libPaths()能夠顯示庫所在的位置, 函數library()則可以顯示庫中有哪些包。
#包的安裝
install.packages(「gclus」)
#包的載入
library(gclus)
三、數據結構
數據結構包括向量、矩陣、數組、資料庫、列表、因子。
1.向量:向量是用於存儲數值型、字元型或邏輯型數據的一堆數組。
2.矩陣:矩陣是一個二維數組,只是每個元素都擁有相同的模式(數值型、字元型或邏輯型)。可通過函數matrix創建矩陣。一般使用格式為:
Matrix(vector,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))
其中vector包含了矩陣的元素,nrow和ncol用以指定行和列的維數,dimnames包含了可選的、以字元型向量表示的行名和列名。選項byrow則表明矩陣應當按行填充(byrow=TRUE)還是按列填充(byrow=FALSE),默認情況下按列填充。
如何訪問矩陣中的元素?
a[i,]指矩陣x中的第i行,a[,j]指第j列,a[i,j]指第i行第j個元素
3.數組,數組(array)與矩陣類似,但是維度可以大於2。數組可通過array函數創建,形式如下:
array(vector,dimensions,dimnames)
其中vector包含了數組中的數據,dimensions是一個數值型向量,給出了各個維度下標的最大值,而dimnames是可選的、各維度名稱標籤的列表。
4.數據框,形式如下;
Data.frame(col1,col2,col3,col4...)
通過$和列表名來選取數據框中的某一列
#查找
age1 <-patientdata$age
#選取一部分
Subdata <-patientdata[c(「diabetes」,「status」)]
#有多少個病人
patientNumber <- nrow(patientdata)
#查找「1型糖尿病」的病人
type1 <-patientdata[patientdata$diabetes==「1型糖尿病」,]
#統計病人數
Type1.number <- nrow(type1)
#增加數據
Patentdat <- rbind(patientdat,newPatient)
#增加列
Patientdata <- cbind(patientdata,inTime)
5.列表:集合各個數據結構,形式如下;
List(name1=object1,name2=object2,name3=boject3...)
#有多少病人
patientNumber<- nrow(patientdata)
#患「1型糖尿病」人的信息
type1 <- patientdata[patientdata$diabetes ==「1型糖尿病」,]
#有多少病人
Kpi <- list(diabetesType1=type1,number=number)
#獲取列表中的kpi:病人數目
number <- kpi[[「numner」]]
推薦閱讀:
