码农咖啡馆 - SegmentFault 思否

一个段子来解释数据挖掘

2016-03-13

阅读 2 分钟

话说这齐天大圣孙悟空大闹天宫，玉帝派二郎神杨戬去镇压，兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术，拔一把毫毛一吹一变，地上就冒出成千上万只一模一样的猴子，每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖，求教鉴别真假美猴王的方法。佛祖呵呵一笑，说这招分身术是从菩提老...

4个小例子告诉你：如何成为一名数据极客

2shou

2015-12-12

阅读 3 分钟

2.2k

对于数据岗位的员工，互联网公司颇有些不同的称谓，像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等，每一种之间的技能差距简直是风马牛不相及。但我觉得，数据岗位的需求千变万化，真正能通过数据解决问题的人，不仅要通晓两到三种岗位的技能，而且要深刻理解数据方法论，能将数据玩弄于鼓掌之中，...

卡方检验原理及应用

2shou

2015-09-08

阅读 2 分钟

56.9k

卡方检验，或称x2检验，被誉为二十世纪科学技术所有分支中的20大发明之一，它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者，研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择（降维），后来听内部培训，另一个部门说他们有用卡方检验做异常用户的检测，于是就想把卡方检...

Spark DataFrame小试牛刀

2shou

2015-03-23

阅读 2 分钟

31.8k

三月中旬，Spark发布了最新的1.3.0版本，其中最重要的变化，便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，计算性能更还快了两倍。这一个小小的API，隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自...

为什么Spark将成为数据科学家的统一平台

2shou

2015-03-22

阅读 5 分钟

8.6k

数据科学是一个广阔的领域。我自认是一个数据科学家，但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营，而我正处于第二阵营。统计科学家使用交互式的统计工具（比如R）来回答数据中的问题，获得全景的认识。与之相比，数据工程师则更像一名程序员，他们在服务器上编写代码，...

逻辑回归碎碎念

2shou

2015-03-12

阅读 2 分钟

3.6k

逻辑回归（Logistic-Regression）是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生，跟他聊起正在做的热门电台排行榜，需要把各个指标加权得出的分值映射到(0,1)空间，采用的是最简陋的线性映射方法。他建议我可以用sigmoid函数做，我立时...

什么是好的推荐系统

2shou

2015-01-29

阅读 3 分钟

4.7k

我一直自诩是「菜刀流」的工程师，作为一个数据挖掘的门外汉，竟也操刀过三个推荐系统的项目了。这三个推荐系统，用户群不同，业务场景不同，连地域和文化也有些差别。所以近来总在琢磨，推荐系统的缘起千人千面，纷繁万变的细节当中，能不能汇聚出一些普遍共性？有没有一个普适的标准，回答什么是一个真正出色的推荐系...

LibShortText简要入门

2shou

2015-01-07

阅读 3 分钟

6.5k

LibShortText是一个开源的Python短文本（包括标题、短信、问题、句子等）分类工具包。它在LibLinear的基础上针对短文本进一步优化，主要特性有： - 支持多分类 - 直接输入文本，无需做特征向量化的预处理 - 二元分词（Bigram），不去停顿词，不做词性过滤 - 基于线性核SVM分类器（参见SVM原理简介：最大间隔分类器），训...