SF
数据分析
数据分析
注册登录
关注博客
注册登录
主页
关于
RSS
Kmeans聚类算法
xiao蜗牛
2017-10-31
阅读 4 分钟
5.9k
Kmeans是最流行的,以及最简单的用于挖掘数据潜在结构的机器学习算法之一。Kmeans的目标很简单:根据数据的均值,将数据划分为若干个簇。假定每个簇的均值可以很好地代表簇内的每一个观察值。
R语言rvest爬取天气网中的历史天气信息
xiao蜗牛
2017-10-10
阅读 4 分钟
6.3k
整体思路 我们进入天气网首页:[链接],以广州2017年09月历史天气为例,把当前页面切换到广州天气页面,如下图: 继续往下滚动页面,直到看到广州历史天气详情,然后点击2017年09月天气 ,进入广州2017年09月天气详情页面,如下图: 注意链接地址的变化:链接中的guangzhou代表地区,201709代表时间。也就是说我们可以通...
如何从URL中读取txt或csv文件?
xiao蜗牛
2017-10-10
阅读 2 分钟
10.7k
这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据? 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。 URL中的数据一直更新,你想实时处理最新的数据。 你希望你的代码在另一台机器以及另一个目录下工作。 你想在博客中发布一个完整的可重复的分析实验,你不想在...
read.table与readr::read_delim
xiao蜗牛
2016-12-13
阅读 1 分钟
7.3k
可以看出,读取796MB的数据test_data,read.table所用时间为67.943s,而read_delim只需要12.790s;读取速度有显著的提升,大约为read.table的5倍。
利用R语言实现阅读量的增量计算
xiao蜗牛
2016-11-21
阅读 5 分钟
3.4k
以下数据为雷克萨斯、卡罗拉的某口碑文章的阅读量,READNUM为文章的累计阅读量;现在我们想求取文章每天的净阅读量,即阅读量增量。例如:2016/11/17,雷克萨斯对应口碑文章的阅读量为:48406 - 48400 = 6.
Advanced R -- 数据结构
xiao蜗牛
2016-10-31
阅读 8 分钟
5.7k
本章主要总结base R中最重要的数据结构。你之前很有可能已经使用到它们,或者它们中的一部分,但是可能从来没有用心思考过它们之间有什么关联。这里,我们将不会更深地去讨论单个数据结构的类型。而是,展示它们是如何由个体构成整体的。如果,你想了解更多的细节,请参照R语言官方文档。R的基础数据结构可以按照维度和...