一个段子来解释数据挖掘

2016-03-13
阅读 2 分钟
3k
话说这齐天大圣孙悟空大闹天宫,玉帝派二郎神杨戬去镇压,兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术,拔一把毫毛一吹一变,地上就冒出成千上万只一模一样的猴子,每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖,求教鉴别真假美猴王的方法。 佛祖呵呵一笑,说这招分身术是从菩提老...

推荐系统从零到一

2016-01-10
阅读 3 分钟
4.1k
可以说是全拜谷歌吹起了「大数据」这阵春风,近几年业界对于数据挖掘人才的需求持续高涨,而推荐系统一直是数据挖掘岗位的必修课。一联系到数据挖掘,总会给人高深莫测的错觉,以为推荐系统也是数学神童的专属领域。万万没想到,自己并不是数据挖掘科班出身,也谈不上数学功底有多好(本科考高数也就在生死边缘),竟然...

4个小例子告诉你:如何成为一名数据极客

2015-12-12
阅读 3 分钟
2.2k
对于数据岗位的员工,互联网公司颇有些不同的称谓,像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等,每一种之间的技能差距简直是风马牛不相及。但我觉得,数据岗位的需求千变万化,真正能通过数据解决问题的人,不仅要通晓两到三种岗位的技能,而且要深刻理解数据方法论,能将数据玩弄于鼓掌之中,...

卡方检验原理及应用

2015-09-08
阅读 2 分钟
56.9k
卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择(降维),后来听内部培训,另一个部门说他们有用卡方检验做异常用户的检测,于是就想把卡方检...

Spark DataFrame小试牛刀

2015-03-23
阅读 2 分钟
31.8k
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自...

为什么Spark将成为数据科学家的统一平台

2015-03-22
阅读 5 分钟
8.6k
数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。 统计科学家使用交互式的统计工具(比如R)来回答数据中的问题,获得全景的认识。与之相比,数据工程师则更像一名程序员,他们在服务器上编写代码,...

逻辑回归碎碎念

2015-03-12
阅读 2 分钟
3.6k
逻辑回归(Logistic-Regression)是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生,跟他聊起正在做的热门电台排行榜,需要把各个指标加权得出的分值映射到(0,1)空间,采用的是最简陋的线性映射方法。他建议我可以用sigmoid函数做,我立时...

什么是好的推荐系统

2015-01-29
阅读 3 分钟
4.7k
我一直自诩是「菜刀流」的工程师,作为一个数据挖掘的门外汉,竟也操刀过三个推荐系统的项目了。这三个推荐系统,用户群不同,业务场景不同,连地域和文化也有些差别。所以近来总在琢磨,推荐系统的缘起千人千面,纷繁万变的细节当中,能不能汇聚出一些普遍共性?有没有一个普适的标准,回答什么是一个真正出色的推荐系...

LibShortText简要入门

2015-01-07
阅读 3 分钟
6.5k
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: - 支持多分类 - 直接输入文本,无需做特征向量化的预处理 - 二元分词(Bigram),不去停顿词,不做词性过滤 - 基于线性核SVM分类器(参见SVM原理简介:最大间隔分类器),训...