这是一个无所不有的时代,这是一个一无所有的时代,这是一个打着灯笼也找不着的睁眼瞎的时代。

曾经的认知屏障源于资源、信息的匮乏,而现在的认知屏障在于信息的泛滥。这种泛滥,还不仅是通常意义上所谓的杂音太多的泛滥,如娱乐、八卦、带节奏、标题党的信息泛滥,更有一大堆好的资料、好的数据源都赤裸裸地摆在你面前了,你就是连静下心来正经八百地看一眼的时间都没有。

前几天出来的马蜂窝事件又一次刷新了数据分析的热度,各种大神崇拜、技术崇拜不绝于耳。很多朋友说数据源匮乏,又或是自己没有实力、精力去做爬虫,让这些有闲工夫的人钻了空子。可事实上,抛开马蜂窝这个特殊公司不说,大量现成的关于各类App、网站的数据遍地都是。可问题是,要么你看不见这些数据是存在的,要么你看见了也就只是把数据屯起来,放在那里视而不见。

当然,我自己也算是这方面典型的一个反面教材。今天陈大先生扔给我一个让他比较吃惊的数据源——国家统计局。这个数据源,我很早就知道,它也早早地躺在了我的收藏夹里。可是呢,它也就躺在那里,它还是它,我还是我。今天再一次翻阅了一下里面的数据,不得不叹服,即便是被各种键盘侠吐槽官方发布的数据限制很多,但如果仔细查阅你会发现其数据是相当详实的。很多让人头痛的、想要弄清楚国情、民情的数据,在这里都有。并且,国家统计局的网站并不只是单纯地把数据放在那里供你下载,它有很多online的可视化工具供你直接操作,真的是零门槛。如果不相信,欢迎各位同学去亲自验证,保证不会让你们失望。

又比如在曹大caoz在最新的文章《年轻人如何提高职场视野》中谈到的,有些年轻人质疑互联网领头企业的盈利能力,怀疑它们根本没什么业务收入,全靠股市圈钱。业内人士我们暂且不谈,就场外人士的角度来看,提出这个问题是完全合情合理的。但,回答这个问题真的那么困难么?这些上市公司的财报(我是亲自下载来看过的),非常详细地罗列了企业的营收构成、占比数量以及市场份额。这些财报是在严格的监管下制作出来的,从概率上讲,它们具备相当的公信力。直接阅读这些财报,难道不比你去听各种专家解读行业要靠谱得多?

再比如,Kaggle的dataset这个项目已经建立了2年多了,但真正知道它、又用到它的人不知道有多少。让我们看看排在hotness前几位的是些什么项目:

clipboard.png

按照votes数来排序的又有什么项目:

clipboard.png

最热门的几个领域:金融、比特币、视频趋势、App趋势、医疗的数据都罗列在了这里。并且,Kaggle这个平台有的还不仅是数据源。就算你说数据我现在是有了,可我怎么分析呢?不用担心,每一份dataset都有相应的Kernel讨论区,里面充满了各种数据分析牛人的分析程序脚本,让你可以尽情地学习和借鉴。这难道不是把食物直接喂到你跟前,甚至是嚼碎了喂到你跟前么?

可是,依旧睁眼看不见。

数据分析这件事情,“数据”和“分析”在如今都变得很廉价了,但为什么人才依旧稀缺?并且,很多时候所谓的数据洞见,根本就不足以去谈论什么复杂的数学模型,仅仅是最简单的把数据摘出来,把最基本的:简单把数据做归类、画一个曲线图/饼状图、求一下平均值/方差/众数/中位数,就足够得出让你惊讶的结论。可就连这么最基本的操作,绝大部分的人都做不到。

这样低廉的准入门槛,其实会像MOOC这个项目一样不是抚平而是加剧大家的认知差距和教育差距。记得我前段时间看到过这样一条评论:“架设梯子不就是为了在外面“开车”么,否则出去干嘛?!”让我不寒而栗,拿着珍贵的资源当废品用,不是买椟还珠是什么?一部分人的压力很大、也很忙,几乎没时间跳出去回看自己生存的世界,于是视而不见;另一部分人很闲,工作极端枯燥和无趣,有大把的时间需要被打发掉,也没时间去在这些方面输入一个关键词做搜索。

总之,最没时间和精力去关注的,就是这些眼皮子低下的东西。

这真是一个有趣的时代,让所有荒诞的寓言故事都成了事实而不是隐喻。






近期回顾

《关于编程语言的一些趣史》
《他人皆蠢,吗?》
《从Facebook面试看互联网行业》




如果你喜欢我的文章或分享,请长按下面的二维码关注我的微信公众号,谢谢!

clipboard.png

更多信息交流和观点分享,可加入知识星球:

clipboard.png


geekartt
14 声望3 粉丝

Let's geek and art.