如何从URL中读取txt或csv文件？

这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据？

你想和不熟悉R的人分享你的代码，以及你想避免解释如何在文件开头改变文件的路径等问题。
URL中的数据一直更新，你想实时处理最新的数据。
你希望你的代码在另一台机器以及另一个目录下工作。
你想在博客中发布一个完整的可重复的分析实验，你不想在文中出现”请到www.xxxx.com,下载数据并加载到R中”。

不管你的原因是什么，都是很棒的想法。下面是一些从URL中获取数据的一些代码，希望能帮到一些人。

说明！！！

这里仅仅处理表格形式的数据，并不是从网络中爬取数据。这是最简单的一种情况：在URL中储存着一个txt或csv文件，你希望直接读取数据，而不是先下载到本地，然后再读进R中。

使用data.table::fread()

我喜欢data.table包。几乎每个项目中，我都会使用它。它是R中data.frame对象的扩展，但是在性能上有很大的提升。其中一个改进点就是fread()函数。它类似于base包中的read.csv()和read.table()函数。fread()在很多地方做了改善，但是这里我们仅仅使用它来读取URL中的数据。使用fread()在本地读取数据的格式如下：

library(data.table)
mydat <- fread('C://Some/File/Path.csv')

从网络源中读取数据和这没有什么区别。在help文件(?fread)中作者提供的样例为：

library(data.table)
mydat <- fread('http://www.stats.ox.ac.uk/pub/datasets/csb/ch11b.dat')
head(mydat)

   V1  V2   V3    V4 V5
1:  1 307  930 36.58  0
2:  2 307  940 36.73  0
3:  3 307  950 36.93  0
4:  4 307 1000 37.15  0
5:  5 307 1010 37.23  0
6:  6 307 1020 37.24  0

如果你在浏览器中访问上面的链接，会弹出下载的窗口。如果你访问上级地址http://www.stats.ox.ac.uk/pub...，你会发现很多的数据下载链接。通过fread()我们可以直接读取数据到R中，而不用点击下载链接进行下载。

使用RStudio

在RStudio中，通过点击Tools -> Import Dataset -> From Web URL，然后填写URL地址。

使用RCurl::getURL()

library(RCurl)
myfile <- getURL('https://sakai.unc.edu/access/content/group/3d1eb92e-7848-4f55-90c3-7c72a54e7e43/public/data/bycatch.csv', ssl.verifyhost=FALSE, ssl.verifypeer=FALSE)

getURL()抓取指定URL中的内容，并不返回data.frame对象。它仅仅把URL中的内容储存到字符串中。

class(myfile)

[1] "character"

所以，我们怎么获取data.frame对象呢？我们可以使用textConnection()函数打开字符串中的链接，就像打开本地硬盘中的文件一样。接着使用read.csv()函数（你也可以使用read.table()或fread()函数）读取字符串对象并创建data.frame对象。

mydat <- read.csv(textConnection(myfile), header=T)
head(mydat)

  Season  Area Gear.Type  Time Tows Bycatch
1 1989-90 North    Bottom   Day   48       0
2 1989-90 North    Bottom Night    6       0
3 1989-90 North Mid-Water Night    1       0
4 1989-90 South    Bottom   Day  139       0
5 1989-90 South Mid-Water   Day    6       0
6 1989-90 South    Bottom Night    6       0

现在，URL中的数据已成功转换为R中data.frame对象。

如何从URL中读取txt或csv文件？

说明！！！

使用data.table::fread()

使用RStudio

使用RCurl::getURL()

xiao蜗牛

引用和评论

理解偏倚和方差权衡

智能问数技术路径对比：NL2SQL vs NL2Semantic2SQL

在vscode中配置、使用R语言

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

分析型数据库入门指南：如何选择适合你的实时分析工具？

如何从URL中读取txt或csv文件？

说明！！！

使用data.table::fread()

使用RStudio

使用RCurl::getURL()

xiao蜗牛

引用和评论

理解偏倚和方差权衡

智能问数技术路径对比：NL2SQL vs NL2Semantic2SQL

在vscode中配置、使用R语言

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

分析型数据库入门指南：如何选择适合你的实时分析工具？

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈