1

这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据?

  • 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。
  • URL中的数据一直更新,你想实时处理最新的数据。
  • 你希望你的代码在另一台机器以及另一个目录下工作。
  • 你想在博客中发布一个完整的可重复的分析实验,你不想在文中出现”请到www.xxxx.com,下载数据并加载到R中”。

不管你的原因是什么,都是很棒的想法。下面是一些从URL中获取数据的一些代码,希望能帮到一些人。

说明!!!

这里仅仅处理表格形式的数据,并不是从网络中爬取数据。这是最简单的一种情况:在URL中储存着一个txt或csv文件,你希望直接读取数据,而不是先下载到本地,然后再读进R中。

使用data.table::fread()

我喜欢data.table包。几乎每个项目中,我都会使用它。它是R中data.frame对象的扩展,但是在性能上有很大的提升。其中一个改进点就是fread()函数。它类似于base包中的read.csv()和read.table()函数。fread()在很多地方做了改善,但是这里我们仅仅使用它来读取URL中的数据。使用fread()在本地读取数据的格式如下:

library(data.table)
mydat <- fread('C://Some/File/Path.csv')

从网络源中读取数据和这没有什么区别。在help文件(?fread)中作者提供的样例为:

library(data.table)
mydat <- fread('http://www.stats.ox.ac.uk/pub/datasets/csb/ch11b.dat')
head(mydat)
   V1  V2   V3    V4 V5
1:  1 307  930 36.58  0
2:  2 307  940 36.73  0
3:  3 307  950 36.93  0
4:  4 307 1000 37.15  0
5:  5 307 1010 37.23  0
6:  6 307 1020 37.24  0

如果你在浏览器中访问上面的链接,会弹出下载的窗口。如果你访问上级地址http://www.stats.ox.ac.uk/pub...,你会发现很多的数据下载链接。通过fread()我们可以直接读取数据到R中,而不用点击下载链接进行下载。

使用RStudio

在RStudio中,通过点击Tools -> Import Dataset -> From Web URL,然后填写URL地址。

使用RCurl::getURL()

library(RCurl)
myfile <- getURL('https://sakai.unc.edu/access/content/group/3d1eb92e-7848-4f55-90c3-7c72a54e7e43/public/data/bycatch.csv', ssl.verifyhost=FALSE, ssl.verifypeer=FALSE)

getURL()抓取指定URL中的内容,并不返回data.frame对象。它仅仅把URL中的内容储存到字符串中。

class(myfile)
[1] "character"

所以,我们怎么获取data.frame对象呢?我们可以使用textConnection()函数打开字符串中的链接,就像打开本地硬盘中的文件一样。接着使用read.csv()函数(你也可以使用read.table()或fread()函数)读取字符串对象并创建data.frame对象。

mydat <- read.csv(textConnection(myfile), header=T)
head(mydat)
  Season  Area Gear.Type  Time Tows Bycatch
1 1989-90 North    Bottom   Day   48       0
2 1989-90 North    Bottom Night    6       0
3 1989-90 North Mid-Water Night    1       0
4 1989-90 South    Bottom   Day  139       0
5 1989-90 South Mid-Water   Day    6       0
6 1989-90 South    Bottom Night    6       0

现在,URL中的数据已成功转换为R中data.frame对象。


xiao蜗牛
85 声望20 粉丝

{name: 'Xiao蜗牛',