睁眼瞎的时代

这是一个无所不有的时代，这是一个一无所有的时代，这是一个打着灯笼也找不着的睁眼瞎的时代。

曾经的认知屏障源于资源、信息的匮乏，而现在的认知屏障在于信息的泛滥。这种泛滥，还不仅是通常意义上所谓的杂音太多的泛滥，如娱乐、八卦、带节奏、标题党的信息泛滥，更有一大堆好的资料、好的数据源都赤裸裸地摆在你面前了，你就是连静下心来正经八百地看一眼的时间都没有。

前几天出来的马蜂窝事件又一次刷新了数据分析的热度，各种大神崇拜、技术崇拜不绝于耳。很多朋友说数据源匮乏，又或是自己没有实力、精力去做爬虫，让这些有闲工夫的人钻了空子。可事实上，抛开马蜂窝这个特殊公司不说，大量现成的关于各类App、网站的数据遍地都是。可问题是，要么你看不见这些数据是存在的，要么你看见了也就只是把数据屯起来，放在那里视而不见。

当然，我自己也算是这方面典型的一个反面教材。今天陈大先生扔给我一个让他比较吃惊的数据源——国家统计局。这个数据源，我很早就知道，它也早早地躺在了我的收藏夹里。可是呢，它也就躺在那里，它还是它，我还是我。今天再一次翻阅了一下里面的数据，不得不叹服，即便是被各种键盘侠吐槽官方发布的数据限制很多，但如果仔细查阅你会发现其数据是相当详实的。很多让人头痛的、想要弄清楚国情、民情的数据，在这里都有。并且，国家统计局的网站并不只是单纯地把数据放在那里供你下载，它有很多online的可视化工具供你直接操作，真的是零门槛。如果不相信，欢迎各位同学去亲自验证，保证不会让你们失望。

又比如在曹大caoz在最新的文章《年轻人如何提高职场视野》中谈到的，有些年轻人质疑互联网领头企业的盈利能力，怀疑它们根本没什么业务收入，全靠股市圈钱。业内人士我们暂且不谈，就场外人士的角度来看，提出这个问题是完全合情合理的。但，回答这个问题真的那么困难么？这些上市公司的财报（我是亲自下载来看过的），非常详细地罗列了企业的营收构成、占比数量以及市场份额。这些财报是在严格的监管下制作出来的，从概率上讲，它们具备相当的公信力。直接阅读这些财报，难道不比你去听各种专家解读行业要靠谱得多？

再比如，Kaggle的dataset这个项目已经建立了2年多了，但真正知道它、又用到它的人不知道有多少。让我们看看排在hotness前几位的是些什么项目：

按照votes数来排序的又有什么项目：

最热门的几个领域：金融、比特币、视频趋势、App趋势、医疗的数据都罗列在了这里。并且，Kaggle这个平台有的还不仅是数据源。就算你说数据我现在是有了，可我怎么分析呢？不用担心，每一份dataset都有相应的Kernel讨论区，里面充满了各种数据分析牛人的分析程序脚本，让你可以尽情地学习和借鉴。这难道不是把食物直接喂到你跟前，甚至是嚼碎了喂到你跟前么？

可是，依旧睁眼看不见。

数据分析这件事情，“数据”和“分析”在如今都变得很廉价了，但为什么人才依旧稀缺？并且，很多时候所谓的数据洞见，根本就不足以去谈论什么复杂的数学模型，仅仅是最简单的把数据摘出来，把最基本的：简单把数据做归类、画一个曲线图/饼状图、求一下平均值/方差/众数/中位数，就足够得出让你惊讶的结论。可就连这么最基本的操作，绝大部分的人都做不到。

这样低廉的准入门槛，其实会像MOOC这个项目一样不是抚平而是加剧大家的认知差距和教育差距。记得我前段时间看到过这样一条评论：“架设梯子不就是为了在外面“开车”么，否则出去干嘛？！”让我不寒而栗，拿着珍贵的资源当废品用，不是买椟还珠是什么？一部分人的压力很大、也很忙，几乎没时间跳出去回看自己生存的世界，于是视而不见；另一部分人很闲，工作极端枯燥和无趣，有大把的时间需要被打发掉，也没时间去在这些方面输入一个关键词做搜索。

总之，最没时间和精力去关注的，就是这些眼皮子低下的东西。

这真是一个有趣的时代，让所有荒诞的寓言故事都成了事实而不是隐喻。

近期回顾

《关于编程语言的一些趣史》
《他人皆蠢，吗？》
《从Facebook面试看互联网行业》

如果你喜欢我的文章或分享，请长按下面的二维码关注我的微信公众号，谢谢！

更多信息交流和观点分享，可加入知识星球：

睁眼瞎的时代

geekartt

引用和评论

ElasticSearch 索引的存储机制推演

ClkLog埋点分析系统-环境部署配置指南

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）

【数据仓库】数仓分层设计

谷云观点：企业为什么要部署私有化的AI Agent智能体构建平台？

ClkLog埋点用户分析系统支持手机端查询统计数据

高端制造业财务数字化怎么做？思迈特提出了新思路