TensorFlow学习笔记(2):多元线性回归

2016-12-30
阅读 3 分钟
13k
对于梯度下降算法,变量是否标准化很重要。在这个例子中,变量一个是面积,一个是房间数,量级相差很大,如果不归一化,面积在目标函数和梯度中就会占据主导地位,导致收敛极慢。

TensorFlow学习笔记(1):线性回归

2016-12-30
阅读 2 分钟
8.1k
对于tensorflow,梯度下降的步长alpha参数需要很仔细的设置,步子太大容易扯到蛋导致无法收敛;步子太小容易等得蛋疼。迭代次数也需要细致的尝试。

R统计绘图(2):grid布局

2016-12-29
阅读 3 分钟
13.7k
在本专栏的上一篇文章R统计绘图(1):ggplot2入门指南里提到,ggplot2的facet功能支持快速生成多张相同制作流程的统计图形,但是不能支持生成多张制作流程不同的统计图形。其实这很正常,制作流程不同,那就只能一张一张地制作——那么问题来了:这单独制作的多张图怎么随心所欲地按照你的设想进行摆放呢?上一篇文章给出...

TensorFlow入门教程

2016-11-15
阅读 5 分钟
25.8k
TensorFlow是目前最流行的深度学习框架。我们先引用一段官网对于TensorFlow的介绍,来看一下Google对于它这个产品的定位。

机器学习:随机森林学习笔记

2016-09-29
阅读 5 分钟
8.7k
随机森林是一个很强大的模型,由一组决策树投票得到最后的结果。要研究清楚随机森林,首先需要研究清楚决策树,然后理解随机森林如何通过多棵树的集成提高模型效果。

numpy:python数据领域的功臣

2016-09-15
阅读 4 分钟
9.8k
numpy对python的意义非凡,在数据分析与机器学习领域为python立下了汗马功劳。现在用python搞数据分析或机器学习经常使用的pandas、matplotlib、sklearn等库,都需要基于numpy构建。毫不夸张地说,没有numpy,python今天在数据分析与机器学习领域只能是捉襟见肘。

线性回归:python & R & Java

2016-09-08
阅读 2 分钟
6.7k
由于场景不同,数据挖掘适合的编程语言不同。在模型原型开发阶段,可能R和python比较适合;在模型上线阶段,可能Java和python比较合适。而不同的线上框架又支持不同的语言,比如JStorm只能用Java搞,而Spark则比较友好,同时支持Java和python两种语言。同样的情况也发生下原型开发阶段:如果是单机环境,R和python都很不...

吴恩达Deep Learning课程练习题参考答案——R语言版

2016-08-20
阅读 9 分钟
8.1k
吴恩达有一套课程Deep Learning,对机器学习的基础理论做了非常好的介绍,上课视频质量非常好,而且练习题都设计得很有水平,并提供了Matlab的答案。本文针对这些练习题,提供了一份R语言版的答案。

阿里天池大赛:最后一公里急速配送

2016-08-07
阅读 12 分钟
9.2k
最近公司组织了一场大咖秀,有位讲师建议我们没事多参加阿里的天池大赛,说是对提高自己很有帮助。于是想起自己几天前看到的FinanceR专栏的天池最后一公里,便紧随偶像步伐,注册并下载了一份数据,凑个热闹。详情请点击赛题介绍

R统计绘图(1): ggplot2入门指南

2016-07-30
阅读 11 分钟
23.8k
ggplot2是R语言最流行的第三方扩展包,是RStudio首席科学家Hadley Wickham读博期间的作品,是R相比其他语言一个独领风骚的特点。包名中“gg”是grammar of graphics的简称,是一套优雅的绘图语法。Wickham Hadley将这套语法诠释如下:

R空间数据处理与可视化

2016-07-20
阅读 5 分钟
10.2k
空间数据最常用的格式是shp,主要由三个文件组成:shp文件用于存储位置几何信息,dbf文件用于存储attribute,shx用于存储位置几何信息与attribute的对照表。位置几何信息主要有以下几类:points,multipoints,lines,polygons等。

R可视化:用Shiny实现类Excel数据透视图

2016-07-10
阅读 8 分钟
11.1k
数据分析师经常需要看数据。通常而言,数据或存放在MySQL数据库,或存放在Hadoop集群,或存放在阿里云的ODPS上。分析师根据业务需求写SQL语句从数据平台上提取出需要的数据,随后就面临着本文要重点讨论的怎么对数据可视化的难题。