理解偏倚和方差权衡

2017-12-29
阅读 2 分钟
3.9k
当我们讨论预测模型时,预测误差可以分解为两个主要部分:由“偏倚”引起的误差,以及由“方差”引起的误差。模型最小化偏倚和方差的能力之间存在着权衡。理解这两种类型的错误可以帮助我们诊断模型结果,避免过拟合或欠拟合。

随机森林简易教程

2017-11-02
阅读 9 分钟
23k
基于树的学习算法被认为是最优秀的,也是使用最广泛的监督型学习方法。基于树的算法赋予预测模型高精度、稳定性和易解释性。与线性模型不同,它们能很好地映射非线性关系。它们善于解决手头上的任何问题,包括分类和回归。

TensorFlow2

2017-10-31
阅读 2 分钟
2.8k
机器学习基础 线性回归 逻辑回归 Softmax分类 神经网络 线性回归 什么是回归? 通俗地讲:给定X1, X2, ..., Xn,通过模型或算法预测数值Y,即是回归。如上图所示。例如,预测测试分数: x(hours) y(score) 10 90 9 80 3 50 2 30 以下面的数据阐述什么是线性回归: x y 1 1 2 2 3 3 1.如下图所示,我们把上述数据中的点(x...

Kmeans聚类算法

2017-10-31
阅读 4 分钟
5.5k
Kmeans是最流行的,以及最简单的用于挖掘数据潜在结构的机器学习算法之一。Kmeans的目标很简单:根据数据的均值,将数据划分为若干个簇。假定每个簇的均值可以很好地代表簇内的每一个观察值。

TensorFlow1

2017-10-24
阅读 3 分钟
2.9k
TensorFlow Tensorflow是一个开源软件库,它使用数据流图的形式进行数值计算。 什么是数据流图(Data Flow Graph) 节点(Nodes):表示数学运算操作符 边(Edges):用于传送节点之间的多维数组,即张量。 安装TensorFlow CPU版本:pip install --upgrade tensorflow GPU版本:pip install --upgrade tensorflow-gpu 检...

R语言rvest爬取天气网中的历史天气信息

2017-10-10
阅读 4 分钟
5.7k
整体思路 我们进入天气网首页:[链接],以广州2017年09月历史天气为例,把当前页面切换到广州天气页面,如下图: 继续往下滚动页面,直到看到广州历史天气详情,然后点击2017年09月天气 ,进入广州2017年09月天气详情页面,如下图: 注意链接地址的变化:链接中的guangzhou代表地区,201709代表时间。也就是说我们可以通...

如何从URL中读取txt或csv文件?

2017-10-10
阅读 2 分钟
10k
这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据? 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。 URL中的数据一直更新,你想实时处理最新的数据。 你希望你的代码在另一台机器以及另一个目录下工作。 你想在博客中发布一个完整的可重复的分析实验,你不想在...

Pearson相关系数 vs. Spearman相关系数

2017-08-25
阅读 1 分钟
21.7k
统计术语中,相关系数一词经常被滥用,同时也困扰着我。相关系数描述一个变量随着另一个变量的增加而增加,也可以理解为单调递增。变量之间的这个单调趋势很值得去探索,但是大多数人习惯使用标准相关系数导致无法发现这一趋势。在我的印象中,老师在课堂上经常强调:我们现在所说的、以及以后所说的相关都指线性相关。...

基于gensim的Wiki百科中文word2vec训练

2017-07-11
阅读 5 分钟
14.4k
Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时...

linux - 安装OpenCC(简体繁体转换)

2017-07-10
阅读 1 分钟
9.4k
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的...

Python - 安装opencc ImportError: no module named distribute_setup

2017-07-08
阅读 1 分钟
13.7k
当通过pip方式安装opencc时,可能会遇到以下错误:ImportError: No module named distribute_setup。

Python - softmax 实现

2017-07-04
阅读 2 分钟
39.8k
softmax函数将任意n维的实值向量转换为取值范围在(0,1)之间的n维实值向量,并且总和为1。例如:向量softmax([1.0, 2.0, 3.0]) ------> [0.09003057, 0.24472847, 0.66524096]

Theano - 广播(broadcasting)

2017-06-28
阅读 1 分钟
2.6k
如上图,广播一个行矩阵。T和F分别表示True和False,指明沿着哪个维度可以进行广播。如果第二个参数是向量,它的形状为(2,)以及它的广播模式为(False,)。它将会自动向左展开,匹配矩阵的维度,最终得到(1,2)和(True,Fale)。

Theano - theano如何处理形状信息

2017-06-28
阅读 2 分钟
2.3k
在构建图的时候,不可能严格执行Theano变量的形状。因为在运行的时候,传递给Theano函数的某一参数的值可能影响Thenao变量的形状。目前,关于形状信息的使用在Theano中有以下两种方式:

Theano - 循环

2017-06-28
阅读 3 分钟
1.9k
Scan 复发(Recurrence)的一种常用形式,可以用于循环(looping) Reduction和map是scan的特例 可以根据一些输出序列scan一个函数(function),每一步都会生成一个输出 可以查看之前k步的输出 给定一个初始状态z=0,可以通过scan函数z + x(i)计算一个列表的和sum(a_list) 通常一个for循环可以用scan()操作符进行实现 使用sca...

Theano - 条件

2017-06-28
阅读 2 分钟
1.7k
IfElse vs Switch IfElse接收布尔型条件和两个变量作为输入。 Switch接收一个张量(Tensor)以及两个变量作为输入。 Switch进行元素级运算,因此比IfElse更常用。 IfElse比较懒惰,只计算满足条件的相应输出变量, 而Switch计算所有的输出变量。 即: ifelse(condition, output1, output2): 如果condition:1(0),那么ifel...

Theano - 导数

2017-06-28
阅读 2 分钟
2k
计算梯度 计算x^2的梯度 {代码...} 计算逻辑函数的梯度 {代码...} 计算Jacobian {代码...} 计算Hessian矩阵 {代码...} Jacobian times a Vector 右算子(R-operator) {代码...} 左算子(L-operator) {代码...} Hessian times a Vector {代码...} 右算子 {代码...}

Theano - 更多的例子

2017-06-28
阅读 7 分钟
2.4k
含有默认值的输入必须位于不含默认值的输入之后(和python的函数类似)。允许多个输入含有默认值,这些参数可以通过位置设定,也可以通过名字进行设定。

Theano - 代数(Algebra)

2017-06-28
阅读 2 分钟
1.7k
byte: bscalar, bvector, bmatrix, brow, bcol, btensor3, btensor4, btensro5

Theano - Numpy 新手

2017-06-28
阅读 1 分钟
2k
水平方向为矩阵的行,竖直方向为矩阵的列,每一行为一个样例(记录)。 因此输入[10, 5]表示:由10个样例(记录),每个样例具有5个维度(属性)组成的矩阵。如果[10,5]为一个神经网络的输入,那么权重矩阵的表示形式为[5, #hid]的矩阵。考虑一下数组:

Python - jieba分词

2017-03-01
阅读 1 分钟
6.3k
jieba.cut(sentence, cut_all, HMM):sentence-需要分词的字符串;cut_all-控制是否采用全模式;HMM-控制是否使用HMM模型;jieba.cut()返回的结构是一个可迭代的 generator。

CentOs 6安装python2.7.13及异常解决

2017-01-17
阅读 2 分钟
4.8k
可能出现的异常: import sqlite3时抛出异常:ModuleNotFoundError: No module named '_sqlite3' 没有安装pip

CentOS 6 添加网易163源

2017-01-17
阅读 2 分钟
8.2k
参考网站 [链接] 1.首先备份CentOS-Base.repo,如果以前未添加过163源,此步可以省略 {代码...} 2.下载163源 {代码...} 3.把下载文件改成源文件 {代码...} 4.运行以下命令生成缓存 {代码...} yum makecache可能出现以下错误: {代码...} 我们尝试进入[链接]发现仍然是:404 Not Found 这时我们进入[链接]发现:目录下有6 ...

read.table与readr::read_delim

2016-12-13
阅读 1 分钟
6.9k
可以看出,读取796MB的数据test_data,read.table所用时间为67.943s,而read_delim只需要12.790s;读取速度有显著的提升,大约为read.table的5倍。

利用R语言实现阅读量的增量计算

2016-11-21
阅读 5 分钟
3k
以下数据为雷克萨斯、卡罗拉的某口碑文章的阅读量,READNUM为文章的累计阅读量;现在我们想求取文章每天的净阅读量,即阅读量增量。例如:2016/11/17,雷克萨斯对应口碑文章的阅读量为:48406 - 48400 = 6.

centOS 6环境下安装R-3.3.2及Rstudio-server

2016-11-21
阅读 6 分钟
11.3k
Error1:--with-readline=yes (default) and headers/libs are not available

Advanced R -- 数据结构

2016-10-31
阅读 8 分钟
5.2k
本章主要总结base R中最重要的数据结构。你之前很有可能已经使用到它们,或者它们中的一部分,但是可能从来没有用心思考过它们之间有什么关联。这里,我们将不会更深地去讨论单个数据结构的类型。而是,展示它们是如何由个体构成整体的。如果,你想了解更多的细节,请参照R语言官方文档。R的基础数据结构可以按照维度和...