1.外部数据读取

1.1 读取什么?

在数据分析中,数据通常以Excel,Sql形式存储,因此要通过R来读取外部数据,然后进行分析。

1.2 怎样读取?

read.table()---csv,txt,excel
read.csv()---csv

1.3 读取格式

read.table(file, header = FALSE, sep = "", quote = "\"'", dec = ".", skip = 0, strip.white = FALSE, blank.lines.skip = TRUE, comment.char = "#")
  • 在R中,\是转义符,故路径需用\\,如C:\\myfile\\myfile.csv
  • read.table(file.choose(),...)可以通过对话框来选择文件
  • header来确定数据文件中第一行是不是标题。默认F,即认为数据文件没有标题,也即认为第一行就开始是数据了!

2.主成分分析

2.1 主成分分析的地位

主成分分析在数据降维和分析中,担当者非常重要的角色,在此以读取Excel表数据框为例,进行分析,但还有待完善。

2.2 主成分分析的R实现

rd=read.table("clipboard",header=T)   #从剪贴板读取数据
sd=scale(d)      #对数据进行标准化处理
sd  #输出标准化后的数据和属性信息,把标准化的数据拷贝到剪贴板备用
d=read.table("clipboard",header=T)  #从剪贴板读取标准化数据
pca=princomp(d,cor=T)  #主成分分析函数
screeplot(pca,type="line",mian="碎石图",lwd=2)  #画出碎石图从碎石图上可以看出,前两个主成分的方差贡献率比重比较大,下面计算前两个主成分的累积方差贡献率是否超过80%……
dcor=cor(d)   #求相关矩阵
deig=eigen(dcor)    #求相关矩阵的特征值和特征向量
deig$values    #输出特征值
sumeigv=sum(deig$values)
sumeigv   #得到k值

阿偶
13 声望5 粉丝

一名技术渣,吃货,逗比,伪程序猿.


引用和评论

0 条评论