数据分析 - SegmentFault 思否

Kmeans聚类算法

xiao蜗牛

2017-10-31

阅读 4 分钟

5.9k

Kmeans是最流行的，以及最简单的用于挖掘数据潜在结构的机器学习算法之一。Kmeans的目标很简单：根据数据的均值，将数据划分为若干个簇。假定每个簇的均值可以很好地代表簇内的每一个观察值。

R语言rvest爬取天气网中的历史天气信息

xiao蜗牛

2017-10-10

阅读 4 分钟

6.3k

整体思路我们进入天气网首页：[链接]，以广州2017年09月历史天气为例，把当前页面切换到广州天气页面，如下图：继续往下滚动页面，直到看到广州历史天气详情，然后点击2017年09月天气，进入广州2017年09月天气详情页面，如下图：注意链接地址的变化：链接中的guangzhou代表地区，201709代表时间。也就是说我们可以通...

如何从URL中读取txt或csv文件？

xiao蜗牛

2017-10-10

阅读 2 分钟

10.7k

这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据？你想和不熟悉R的人分享你的代码，以及你想避免解释如何在文件开头改变文件的路径等问题。 URL中的数据一直更新，你想实时处理最新的数据。你希望你的代码在另一台机器以及另一个目录下工作。你想在博客中发布一个完整的可重复的分析实验，你不想在...

read.table与readr::read_delim

xiao蜗牛

2016-12-13

阅读 1 分钟

7.3k

可以看出，读取796MB的数据test_data,read.table所用时间为67.943s,而read_delim只需要12.790s;读取速度有显著的提升，大约为read.table的5倍。

利用R语言实现阅读量的增量计算

xiao蜗牛

2016-11-21

阅读 5 分钟

3.4k

以下数据为雷克萨斯、卡罗拉的某口碑文章的阅读量，READNUM为文章的累计阅读量；现在我们想求取文章每天的净阅读量，即阅读量增量。例如：2016/11/17，雷克萨斯对应口碑文章的阅读量为：48406 - 48400 = 6.

Advanced R -- 数据结构

xiao蜗牛

2016-10-31

阅读 8 分钟

5.7k

本章主要总结base R中最重要的数据结构。你之前很有可能已经使用到它们，或者它们中的一部分，但是可能从来没有用心思考过它们之间有什么关联。这里，我们将不会更深地去讨论单个数据结构的类型。而是，展示它们是如何由个体构成整体的。如果，你想了解更多的细节，请参照R语言官方文档。R的基础数据结构可以按照维度和...