线性判别分析 Linear Discriminant Analysis,LDA

2020-11-20
阅读 2 分钟
2.5k
线性判别分类器由向量$w$和偏差项$b$构成。给定样例$x$,其按照如下规则预测获得类别标记$y$,即$y=sign(w^Tx+b)$后面统一使用小写表示列向量,转置表示行向量。分类过程分为如下两步:

瑞利商(Rayleigh quotient)与广义瑞利商(genralized Rayleigh quotient)

2020-11-19
阅读 2 分钟
10.5k
瑞利商函数是指这样的函数𝑅(𝐴,𝑥)$$R(A,x) = \cfrac{x^{H}Ax}{x^{H}x}$$其中𝐴为$𝑛×𝑛$的Hermitan矩阵。Hermitan矩阵,就是满足共轭转置矩阵和自己相等的矩阵,$A^{H}=𝐴$。$X^{H}$是$X$的共轭转置矩阵。

矩阵特征向量与特征值

2020-11-13
阅读 3 分钟
2.3k
最近学习LDA,需要计算特征值与特征向量,就重新学习了一波特征值的计算使用Python比较简单,需要导入numpy的linalg计算。linalg是linear algebra的缩写吧。先导入Numpy {代码...} 随机生成一个矩阵A {代码...} {代码...} 我们使用lambda表示特征值,使用$W$表示特征向量$$\lambda (Lambda)$$ {代码...} 我们注意到特征...

Google Cloud AI Platform 01平台介绍

2020-02-15
阅读 3 分钟
4.4k
最近不少同学都被困在家办公,没带电脑?回家的童鞋估计已经被逼疯了,拿出小米平板刷了双系统做安卓开发。在安卓机上做安卓开发,细细品,好像也蛮地道的?‍♀️

学习第n个任务会比之前的容易吗?

2019-06-13
阅读 3 分钟
1.4k
This paper investigates learning in a lifelong context. Lifelong learning addresses situations in which a learner faces a whole stream of learning tasks. Such scenarios provide the opportunity to transfer knowledge across multiple learning tasks, in order to generalize more accurately from less t...

Facebook论文:为实现跨语种Zero-Shot迁移的巨量多语言句子Embeddings

2019-05-21
阅读 14 分钟
4.2k
本文介绍了一种可以学习多语言句子表示的方法,可用于30多个语种,93种语言and written in 28 different scripts.系统用了所有语言共享BPE词汇表的单BiLSTM 编码器,同时又在parallel corpora上训练的auxiliary解码器。这种技术允许我们只在英语上annotated data训练出的句子embedding模型的基础上训练分类器,然后迁移...

Windows Theano GPU 版配置

2018-05-28
阅读 4 分钟
4.4k
因为自己在上Coursera的Advanced Machine Learning, 里面第四周的Assignment要用到PYMC3,然后这个似乎是基于theano后端的。然而CPU版TMD太慢了,跑个马尔科夫蒙特卡洛要10个小时,简直不能忍了。所以妥妥换gpu版。

Jupyter介绍和使用 中文版

2018-01-27
阅读 14 分钟
32.1k
Notebooks是Donald Knuth 1984年提出的[文本化编程]的一种形式([链接] 。结合文本化编程, 文本和代码交错在一起,而不是分成两个独立地本分。

Anaconda介绍与使用 中文版

2018-01-26
阅读 4 分钟
21.6k
AnacondaAnaconda 是一个基于Python的环境管理工具. 相比其他库管理工具,它更适合数据工作者。 在Anaconda的帮助下,你能够更容易地处理不同项目下对软件库甚至是Python版本的不同需求。

朴素贝叶斯法 Naive Bayes

2017-03-24
阅读 4 分钟
2.5k
设输入空间$mathcal{X} subseteq R^n $是n维向量的集合,输出空间为类标记集合$mathcal{Y}={c_{1},c_{2},cdots,c_{k}}$.输入为特征向量$x in mathcal{X}$,输出为类标记 (class label)$y in mathcal{Y}$. X是定义在输入空间$mathcal{X}$上的随机向量,Y是定义才输入空间$mathcal{Y}$上的随机变量。P(X,Y)是X和Y的联合概...

支持向量机 Support Vector Macchines

2017-03-23
阅读 8 分钟
3.6k
支持向量机(support vector machines, SVM)是一种二分分类模型。他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别与别的感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming...

Decision Tree 决策树

2017-03-03
阅读 10 分钟
3.5k
决策树(decision tree)是一种基本的分类与回归方法。《统计机器学习》主要介绍了用于分类的决策树,《机器学习实战》主要介绍了回归树,两者结合能帮助很好地理解决策树。

回归分析 Regression

2017-02-24
阅读 9 分钟
3.1k
回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。简单来说,就是将一系列影响因素和结果拟合出一个方程,然后将这个方程应用到其他同类事件中,可以进行预测。回归分析按照涉及的自变量的多少,分为一元回归和多元回归分析;按照自变量和因变量之间的关系类型...

模型评估和验证 Model Evaluation and Validation

2017-02-13
阅读 14 分钟
6.3k
在机器学习中,我们一般要将数据分为训练集和测试集。在训练集上训练模型,然后在测试集上测试模型。我们训练模型的目的是用训练好的模型帮助我们在后续的实践中做出准确的预测,所以我们希望模型能够在今后的实际使用中有很好的性能,而不是只在训练集上有良好的性能。如果模型在学习中过于关注训练集,那就会只是死记...

Cross Validation交叉验证

2017-02-11
阅读 6 分钟
5.6k
在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testing set)这两个子集,前者用以建立模型(model),后者则用来评估该模型对未知样本进行预测时的精确度,正规的说法是泛化能力(generalization ability)。怎么将完...

Underfitting & Overfitting

2017-02-11
阅读 7 分钟
4.1k
Bias occurs when a model has enough data but is not complex enough to capture the underlying relationships. As a result, the model consistently and systematically misrepresents the data, leading to low accuracy in prediction. This is known as underfitting.

数据缺失

2017-02-11
阅读 5 分钟
2.8k
在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的。因此,在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备。造成数据缺失的原因是多方面的,主要可能有以下几种:

Evaluation Metrics

2017-02-10
阅读 13 分钟
3.1k
Classification is about deciding which categories new instances belong to. For example we can organize objects based on whether they are square or round, or we might have data about different passengers on the Titanic like in project 0, and want to know whether or not each passenger survived. The...

Basic Statistics, Numpy and Pandas

2017-02-09
阅读 12 分钟
4.2k
In statistics, a quartile, a type of quantile, is three points that divide sorted data set into four equal groups (by count of numbers), each representing a fourth of the distributed sampled population. There are three quartiles: the first quartile (Q1), the second quartile (Q2), and the third qu...

Jupyter介绍和使用

2017-02-07
阅读 19 分钟
8.7k
Welcome to this lesson on using Jupyter notebooks.The notebook is a web application that allows you to combine explanatory text, math equations, code, and visualizations all in one easily sharable document. For example, here's one of my favorite notebooks shared recently, the analysis of gravitat...

Anaconda介绍与使用

2017-02-07
阅读 12 分钟
5.3k
AnacondaWelcome to this lesson on using Anaconda to manage packages and environments for use with Python. With Anaconda, it's simple to install the packages you'll often use in data science work. You'll also use it to create virtual environments that make working on multiple projects much less mi...

Ubuntu16.04 下安装GPU版TensorFlow(包括Cuda和Cudnn)

2017-02-01
阅读 5 分钟
44.7k
因为windows只支持py3版本的tensorflow,而很多项目是用py2构建的,所以我又尝试在Ubuntu16.04中再次安装GPU版的tensorflow。

【译】Apache Flink 容错机制

2017-01-16
阅读 4 分钟
14k
Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时,程序的每条记录只会作用于状态一次(exactly-once),当然也可以降级为至少一次(at-least-once)。

【转载】关于机器学习的领悟与反思

2017-01-10
阅读 7 分钟
6.6k
北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。

[译] Introducing Complex Event Processing (CEP) with Apache Flink

2017-01-10
阅读 5 分钟
8k
随着传感网络的普及,智能设备持续收集着越来越多的数据,分析近乎实时,不断增长的数据流是一个巨大的挑战。快速应对变化趋势、交付最新的 BI 应用会成为一个公司成败的关键因素。其中关键问题就是数据流的事件模型检测。

Windows10下安装原生TensorFlow GPU版

2017-01-06
阅读 1 分钟
7.1k
下载 CUDA 8.0 和 cuDNN v6 for CUDA 8.0 (下载cuDNN需要先注册NVIDIA开发账户并登录才能看到下载界面) CUDA 9 要TF 1.5版本才支持 安装CUDA 解压cuDNN到一个你喜欢的位置,复制文件夹的绝对路径并加到 PATH 环境变量去,然后把该文件夹下的bin文件夹的路径也放到PATH里去 安装Anaconda Python 3.5 version: 注意wind...