一个段子来解释数据挖掘

2016-03-13
阅读 2 分钟
3k
话说这齐天大圣孙悟空大闹天宫,玉帝派二郎神杨戬去镇压,兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术,拔一把毫毛一吹一变,地上就冒出成千上万只一模一样的猴子,每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖,求教鉴别真假美猴王的方法。 佛祖呵呵一笑,说这招分身术是从菩提老...

程序员你为什么这么忙?

2016-01-24
阅读 2 分钟
2.8k
去年中2shou经历了一次跳槽,重新回到了一线执行者的角色;新的岗位每天都要应对四面八方的需求,不时有火烧眉毛手忙脚乱的时候,往往在聊天工具、邮件、终端、IDE和报表多个窗口之间切换一个来回,就忘了刚开始是想做什么来着,恨不得立马给自己来上一榔头。尽管每天例行加班到十点后,仍然有一些需求忘了、慢了、缺了...

推荐系统从零到一

2016-01-10
阅读 3 分钟
4.1k
可以说是全拜谷歌吹起了「大数据」这阵春风,近几年业界对于数据挖掘人才的需求持续高涨,而推荐系统一直是数据挖掘岗位的必修课。一联系到数据挖掘,总会给人高深莫测的错觉,以为推荐系统也是数学神童的专属领域。万万没想到,自己并不是数据挖掘科班出身,也谈不上数学功底有多好(本科考高数也就在生死边缘),竟然...

非典型的千万用户后台之路

2015-12-27
阅读 4 分钟
5.8k
三年前,原本我只是个不学无术的数据小码农,空有一腔热情;而当时公司也处在艰难的转型期,旧产品不见起色,新产品前途未卜。想见着也不可能用这么小的数据玩出花来,而新产品的数据也不是一时半会能成规模。还是本着最大限度学习的心思,鼓足勇气和老板提换岗,要去扛后台开发的大旗,最大程度参与到产品的一线去。一...

4个小例子告诉你:如何成为一名数据极客

2015-12-12
阅读 3 分钟
2.2k
对于数据岗位的员工,互联网公司颇有些不同的称谓,像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等,每一种之间的技能差距简直是风马牛不相及。但我觉得,数据岗位的需求千变万化,真正能通过数据解决问题的人,不仅要通晓两到三种岗位的技能,而且要深刻理解数据方法论,能将数据玩弄于鼓掌之中,...

Python绘制精美图表之双柱形图

2015-12-06
阅读 2 分钟
29.1k
图表是比干巴巴的表格更直观的表达,简洁、有力。工作中经常遇到的场景是,有一些数值需要定时的监控,比如服务器的连接数、活跃用户数、点击某个按钮的人数,并且通过邮件或者网页展示出来。当我们想关注比数值本身更多的信息(像数值的变化、对比或异常),图表就非常有用了。把数值转化为图片要依赖第三方库的帮忙,...

馆中窥职:小公司没那么糟糕

2015-12-05
阅读 3 分钟
3k
我的职业生涯就是和一般程序员反着来的。一毕业就在握有几家大公司offer的情况下被忽悠进了一家不到30人的初创公司,从代码基础几乎为0起步,一步步成为开发团队的骨干,也眼见着公司由黑暗中摸索、碰壁、重新探索新的方向到最后成就一款千万级用户的产品。入职即满两年,感觉小公司做数据挖掘限制太大,一狠心就放弃了...

卡方检验原理及应用

2015-09-08
阅读 2 分钟
56.9k
卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择(降维),后来听内部培训,另一个部门说他们有用卡方检验做异常用户的检测,于是就想把卡方检...

为ElasticSearch添加HTTP基本认证

2015-05-28
阅读 2 分钟
34.4k
ES的HTTP连接没有提供任何的权限控制措施,一旦部署在公共网络就容易有数据泄露的风险,尤其是加上类似elasticsearch-head这样友好的前端界面,简直让你的数据瞬间裸奔在黑客的眼皮底下。项目上线前做十万伏特的防护当然不现实,但至少,我们不要裸奔,穿一套比基尼吧。而做一个简单的HTTP认证并不需要从头造轮子,elast...

通过HBase Observer同步数据到ElasticSearch

2015-04-23
阅读 2 分钟
10.6k
HBase是一个分布式的存储体系,数据按照RowKey分成不同的Region,再分配给RegionServer管理。但是RegionServer只承担了存储的功能,如果Region能拥有一部分的计算能力,从而实现一个HBase框架上的MapReduce,那HBase的操作性能将进一步提升。正是为了解决这一问题,HBase 0.92版本后推出了Coprocessor -- 协处理器,一个...

ElasticSearch的部署、同步与调优

2015-04-04
阅读 3 分钟
15.4k
ElasticSearch是一个强大的搜索服务器,基于Apache Lucene的全文搜索引擎开发,具有高性能、分布式和零配置的优点。在当前的项目中,我们希望ES能承担亿级文档的搜索,而ES也证明了即便面对这样的数据规模,也能实现十分迅速的搜索响应。

Spark DataFrame小试牛刀

2015-03-23
阅读 2 分钟
31.8k
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自...

为什么Spark将成为数据科学家的统一平台

2015-03-22
阅读 5 分钟
8.6k
数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。 统计科学家使用交互式的统计工具(比如R)来回答数据中的问题,获得全景的认识。与之相比,数据工程师则更像一名程序员,他们在服务器上编写代码,...

逻辑回归碎碎念

2015-03-12
阅读 2 分钟
3.6k
逻辑回归(Logistic-Regression)是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生,跟他聊起正在做的热门电台排行榜,需要把各个指标加权得出的分值映射到(0,1)空间,采用的是最简陋的线性映射方法。他建议我可以用sigmoid函数做,我立时...

理想的程序员

2015-03-02
阅读 4 分钟
7k
我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔。26岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭、害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上,一年半后离职,已是拥有500万用户产品的后台主程。从前我对计算机技术心怀畏惧,认定技术高人一定有佛...

Tornado按天打印日志

2015-02-01
阅读 1 分钟
6.4k
网站流量上来后,日志按天甚至小时存储更方便查看和管理,而Python的logging模块也提供了TimedRotatingFileHandler来支持以不同的时间维度归档日志。 然而根据Logging HOWTO的官方指南设置后,却发现新的日志只剩下root的,Tornado内部的logger全部没有生效。 参考stackoverflow上的一个回答,我发现下面的配置能让Torna...

什么是好的推荐系统

2015-01-29
阅读 3 分钟
4.7k
我一直自诩是「菜刀流」的工程师,作为一个数据挖掘的门外汉,竟也操刀过三个推荐系统的项目了。这三个推荐系统,用户群不同,业务场景不同,连地域和文化也有些差别。所以近来总在琢磨,推荐系统的缘起千人千面,纷繁万变的细节当中,能不能汇聚出一些普遍共性?有没有一个普适的标准,回答什么是一个真正出色的推荐系...

Python利用Phantomjs抓取渲染JS后的网页

2015-01-19
阅读 1 分钟
36.1k
简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

Hive的Python异步客户端

2015-01-16
阅读 1 分钟
5.1k
最近在做一个面向Hive的查询服务,主程序是Python写的。 Hive的查询时间通常都要在1分钟以上,让用户等待不太友好,因此我们想到了用HiveServer2的异步接口,第一时间给用户返回,下次用户再访问的时候,利用密钥重建上次的查询,获取上个查询的状态,如果用户等待太久了还可以主动取消。

Impala的神奇指令「COMPUTE STATS」

2015-01-16
阅读 3 分钟
15.6k
项目迭代中用Impala逐步替换原有的Hive作为查询组件,速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后,联表查询的表现不那么给力了(原先对Hive的十倍速度优势变成了两倍)。 考虑到项目转用Impala是我的提议,调整存储结构也是我的提议,这个结果确实是个让我丢面子的事情,于是挽起袖子找...

SAE的Tornado开发经验

2015-01-14
阅读 1 分钟
4.9k
对程序员来说,新浪云SAE无疑是国内最好的PaaS平台,实名认证和绑定移动端得到的免费云豆,可以让你在做出一款能抬起头的应用之前不愁吃喝。 所以这一年里做过的网站和应用,第一个版本都是起于SAE。 对于Python的网络框架,小2原本专攻大路货Django,工作中被一高手点醒后,开始迷醉于Tornado的快。对,并不是非阻塞的...

TextGrocery,更好用的文本分类Python库

2015-01-12
阅读 2 分钟
9.8k
古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM -- 支持向量机。 但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。 有没有可能把最好的文本...

100 行代码还你一个 Python ORM

2015-01-09
阅读 1 分钟
8k
工作中难免有遇到 MySQL 欧巴的时候,奈何我是个记性不大好的人,临笔忘词,只能祭出谷歌大法,于是想着造个小破轮子,优雅地解决 Python 连接 MySQL 的问题。

用scikit-learn实现朴素贝叶斯分类器

2015-01-08
阅读 2 分钟
20.2k
朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的),同时也是一种简单有效的常用分类算法。关于它的原理,参见朴素贝叶斯分类器的应用。scikit-learn是一个广泛应用的机器学习Python库,它封装了包括朴素贝叶斯在内的若干基础算法。在这篇博客里,我们希望用朴素贝叶斯实现对...

自定义Scrapy的ItemExporter

2015-01-08
阅读 1 分钟
2.6k
Scrapy提供了定制输出格式的功能,包括JSON/CSV等,其实对于文本,分隔符不带Key的格式仍然是最好处理的。 虽然可以修改CSV_DELIMITER让CsvItemExporter输出符合需求的格式,但是对HTML总是存在编码转换的问题让我头疼不已。 索性继承BaseItemExporter实现了一个真正称心如意的定制版ItemExporter。 ItemExporter的代码...

LibShortText简要入门

2015-01-07
阅读 3 分钟
6.5k
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: - 支持多分类 - 直接输入文本,无需做特征向量化的预处理 - 二元分词(Bigram),不去停顿词,不做词性过滤 - 基于线性核SVM分类器(参见SVM原理简介:最大间隔分类器),训...

用Spark实现日志解析

2015-01-07
阅读 1 分钟
10.9k
当下数据矿工们谈论最多的,莫过于这「星火」了。Spark这名字,总让我联想起高中背过的单词书,从而印象不佳,哈哈。 今天也凑了把热闹,把一个日志解析的模块改成Spark实现,算是体验之旅吧。 刚开始我是用看起来很像Swift的Scala写的:SparkLogExtract.scala 然后我希望为这个程序增加参数传入的功能,然后我谷歌大法...