码农咖啡馆 - SegmentFault 思否

一个段子来解释数据挖掘

2016-03-13

阅读 2 分钟

3.4k

话说这齐天大圣孙悟空大闹天宫，玉帝派二郎神杨戬去镇压，兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术，拔一把毫毛一吹一变，地上就冒出成千上万只一模一样的猴子，每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖，求教鉴别真假美猴王的方法。佛祖呵呵一笑，说这招分身术是从菩提老...

程序员你为什么这么忙？

2016-01-24

阅读 2 分钟

3k

去年中2shou经历了一次跳槽，重新回到了一线执行者的角色；新的岗位每天都要应对四面八方的需求，不时有火烧眉毛手忙脚乱的时候，往往在聊天工具、邮件、终端、IDE和报表多个窗口之间切换一个来回，就忘了刚开始是想做什么来着，恨不得立马给自己来上一榔头。尽管每天例行加班到十点后，仍然有一些需求忘了、慢了、缺了...

推荐系统从零到一

2016-01-10

阅读 3 分钟

4.4k

可以说是全拜谷歌吹起了「大数据」这阵春风，近几年业界对于数据挖掘人才的需求持续高涨，而推荐系统一直是数据挖掘岗位的必修课。一联系到数据挖掘，总会给人高深莫测的错觉，以为推荐系统也是数学神童的专属领域。万万没想到，自己并不是数据挖掘科班出身，也谈不上数学功底有多好（本科考高数也就在生死边缘），竟然...

非典型的千万用户后台之路

2015-12-27

阅读 4 分钟

6.1k

三年前，原本我只是个不学无术的数据小码农，空有一腔热情；而当时公司也处在艰难的转型期，旧产品不见起色，新产品前途未卜。想见着也不可能用这么小的数据玩出花来，而新产品的数据也不是一时半会能成规模。还是本着最大限度学习的心思，鼓足勇气和老板提换岗，要去扛后台开发的大旗，最大程度参与到产品的一线去。一...

4个小例子告诉你：如何成为一名数据极客

2015-12-12

阅读 3 分钟

2.5k

对于数据岗位的员工，互联网公司颇有些不同的称谓，像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等，每一种之间的技能差距简直是风马牛不相及。但我觉得，数据岗位的需求千变万化，真正能通过数据解决问题的人，不仅要通晓两到三种岗位的技能，而且要深刻理解数据方法论，能将数据玩弄于鼓掌之中，...

Python绘制精美图表之双柱形图

2015-12-06

阅读 2 分钟

29.6k

图表是比干巴巴的表格更直观的表达，简洁、有力。工作中经常遇到的场景是，有一些数值需要定时的监控，比如服务器的连接数、活跃用户数、点击某个按钮的人数，并且通过邮件或者网页展示出来。当我们想关注比数值本身更多的信息（像数值的变化、对比或异常），图表就非常有用了。把数值转化为图片要依赖第三方库的帮忙，...

馆中窥职：小公司没那么糟糕

2015-12-05

阅读 3 分钟

3.2k

我的职业生涯就是和一般程序员反着来的。一毕业就在握有几家大公司offer的情况下被忽悠进了一家不到30人的初创公司，从代码基础几乎为0起步，一步步成为开发团队的骨干，也眼见着公司由黑暗中摸索、碰壁、重新探索新的方向到最后成就一款千万级用户的产品。入职即满两年，感觉小公司做数据挖掘限制太大，一狠心就放弃了...

卡方检验原理及应用

2015-09-08

阅读 2 分钟

58k

卡方检验，或称x2检验，被誉为二十世纪科学技术所有分支中的20大发明之一，它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者，研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择（降维），后来听内部培训，另一个部门说他们有用卡方检验做异常用户的检测，于是就想把卡方检...

为ElasticSearch添加HTTP基本认证

2015-05-28

阅读 2 分钟

35.4k

ES的HTTP连接没有提供任何的权限控制措施，一旦部署在公共网络就容易有数据泄露的风险，尤其是加上类似elasticsearch-head这样友好的前端界面，简直让你的数据瞬间裸奔在黑客的眼皮底下。项目上线前做十万伏特的防护当然不现实，但至少，我们不要裸奔，穿一套比基尼吧。而做一个简单的HTTP认证并不需要从头造轮子，elast...

通过HBase Observer同步数据到ElasticSearch

2015-04-23

阅读 2 分钟

11k

HBase是一个分布式的存储体系，数据按照RowKey分成不同的Region，再分配给RegionServer管理。但是RegionServer只承担了存储的功能，如果Region能拥有一部分的计算能力，从而实现一个HBase框架上的MapReduce，那HBase的操作性能将进一步提升。正是为了解决这一问题，HBase 0.92版本后推出了Coprocessor -- 协处理器，一个...

ElasticSearch的部署、同步与调优

2015-04-04

阅读 3 分钟

15.8k

ElasticSearch是一个强大的搜索服务器，基于Apache Lucene的全文搜索引擎开发，具有高性能、分布式和零配置的优点。在当前的项目中，我们希望ES能承担亿级文档的搜索，而ES也证明了即便面对这样的数据规模，也能实现十分迅速的搜索响应。

Spark DataFrame小试牛刀

2015-03-23

阅读 2 分钟

32.1k

三月中旬，Spark发布了最新的1.3.0版本，其中最重要的变化，便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，计算性能更还快了两倍。这一个小小的API，隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自...

为什么Spark将成为数据科学家的统一平台

2015-03-22

阅读 5 分钟

8.9k

数据科学是一个广阔的领域。我自认是一个数据科学家，但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营，而我正处于第二阵营。统计科学家使用交互式的统计工具（比如R）来回答数据中的问题，获得全景的认识。与之相比，数据工程师则更像一名程序员，他们在服务器上编写代码，...

逻辑回归碎碎念

2015-03-12

阅读 2 分钟

3.8k

逻辑回归（Logistic-Regression）是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生，跟他聊起正在做的热门电台排行榜，需要把各个指标加权得出的分值映射到(0,1)空间，采用的是最简陋的线性映射方法。他建议我可以用sigmoid函数做，我立时...

理想的程序员

2015-03-02

阅读 4 分钟

7.2k

我算是靠坑蒙拐骗进了程序员的门，然后一路狂奔。26岁之前几乎没有任何写代码的经验，研究生毕业却意外选择了一家不可能提供培训的初创公司，在每日担忧公司倒闭、害怕被炒鱿鱼以及同事冷落白眼的三重压力下逆流而上，一年半后离职，已是拥有500万用户产品的后台主程。从前我对计算机技术心怀畏惧，认定技术高人一定有佛...

Tornado按天打印日志

2015-02-01

阅读 1 分钟

6.8k

网站流量上来后，日志按天甚至小时存储更方便查看和管理，而Python的logging模块也提供了TimedRotatingFileHandler来支持以不同的时间维度归档日志。然而根据Logging HOWTO的官方指南设置后，却发现新的日志只剩下root的，Tornado内部的logger全部没有生效。参考stackoverflow上的一个回答，我发现下面的配置能让Torna...

什么是好的推荐系统

2015-01-29

阅读 3 分钟

5k

我一直自诩是「菜刀流」的工程师，作为一个数据挖掘的门外汉，竟也操刀过三个推荐系统的项目了。这三个推荐系统，用户群不同，业务场景不同，连地域和文化也有些差别。所以近来总在琢磨，推荐系统的缘起千人千面，纷繁万变的细节当中，能不能汇聚出一些普遍共性？有没有一个普适的标准，回答什么是一个真正出色的推荐系...

Python利用Phantomjs抓取渲染JS后的网页

2015-01-19

阅读 1 分钟

36.6k

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

Hive的Python异步客户端

2015-01-16

阅读 1 分钟

5.5k

最近在做一个面向Hive的查询服务，主程序是Python写的。 Hive的查询时间通常都要在1分钟以上，让用户等待不太友好，因此我们想到了用HiveServer2的异步接口，第一时间给用户返回，下次用户再访问的时候，利用密钥重建上次的查询，获取上个查询的状态，如果用户等待太久了还可以主动取消。

Impala的神奇指令「COMPUTE STATS」

2015-01-16

阅读 3 分钟

16.3k

项目迭代中用Impala逐步替换原有的Hive作为查询组件，速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后，联表查询的表现不那么给力了（原先对Hive的十倍速度优势变成了两倍）。考虑到项目转用Impala是我的提议，调整存储结构也是我的提议，这个结果确实是个让我丢面子的事情，于是挽起袖子找...

SAE的Tornado开发经验

2015-01-14

阅读 1 分钟

5.1k

对程序员来说，新浪云SAE无疑是国内最好的PaaS平台，实名认证和绑定移动端得到的免费云豆，可以让你在做出一款能抬起头的应用之前不愁吃喝。所以这一年里做过的网站和应用，第一个版本都是起于SAE。对于Python的网络框架，小2原本专攻大路货Django，工作中被一高手点醒后，开始迷醉于Tornado的快。对，并不是非阻塞的...

TextGrocery，更好用的文本分类Python库

2015-01-12

阅读 2 分钟

10.2k

古龙说，无论什么东西，最好的都只有一种。经历半年的文本分类实践，我们基本已断定，最好的文本分类算法就是SVM -- 支持向量机。但是纵然知道了天机，新手做文本分类仍然需要学习不少东西，例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物，更有种高射炮打蚊子的异样感。有没有可能把最好的文本...

100 行代码还你一个 Python ORM

2015-01-09

阅读 1 分钟

8.4k

工作中难免有遇到 MySQL 欧巴的时候，奈何我是个记性不大好的人，临笔忘词，只能祭出谷歌大法，于是想着造个小破轮子，优雅地解决 Python 连接 MySQL 的问题。

用scikit-learn实现朴素贝叶斯分类器

2015-01-08

阅读 2 分钟

20.8k

朴素贝叶斯（Naive Bayes Classifier）是一种「天真」的算法（假定所有特征发生概率是独立的），同时也是一种简单有效的常用分类算法。关于它的原理，参见朴素贝叶斯分类器的应用。scikit-learn是一个广泛应用的机器学习Python库，它封装了包括朴素贝叶斯在内的若干基础算法。在这篇博客里，我们希望用朴素贝叶斯实现对...

自定义Scrapy的ItemExporter

2015-01-08

阅读 1 分钟

3k

Scrapy提供了定制输出格式的功能，包括JSON/CSV等，其实对于文本，分隔符不带Key的格式仍然是最好处理的。虽然可以修改CSV_DELIMITER让CsvItemExporter输出符合需求的格式，但是对HTML总是存在编码转换的问题让我头疼不已。索性继承BaseItemExporter实现了一个真正称心如意的定制版ItemExporter。 ItemExporter的代码...

LibShortText简要入门

2015-01-07

阅读 3 分钟

6.8k

LibShortText是一个开源的Python短文本（包括标题、短信、问题、句子等）分类工具包。它在LibLinear的基础上针对短文本进一步优化，主要特性有： - 支持多分类 - 直接输入文本，无需做特征向量化的预处理 - 二元分词（Bigram），不去停顿词，不做词性过滤 - 基于线性核SVM分类器（参见SVM原理简介：最大间隔分类器），训...

用Spark实现日志解析

2015-01-07

阅读 1 分钟

11.1k

当下数据矿工们谈论最多的，莫过于这「星火」了。Spark这名字，总让我联想起高中背过的单词书，从而印象不佳，哈哈。今天也凑了把热闹，把一个日志解析的模块改成Spark实现，算是体验之旅吧。刚开始我是用看起来很像Swift的Scala写的：SparkLogExtract.scala 然后我希望为这个程序增加参数传入的功能，然后我谷歌大法...