「数据游戏」:数据告诉你多读书到底能不能多赚钱?

2019-05-23
阅读 5 分钟
1.4k
北起漠河南至曾母暗沙,东达抚远西至斯姆哈纳。在广袤的中国土地上,千百年一直流传着古老的传说:书中自有黄金屋。 今天,我就用数据告诉你,书中到底有没有黄金屋。 数据来源 利用 Max 的拉勾爬虫爬取了拉勾杭州站,要求3~5年工作经验的1000条招聘数据。 简单数据分析 疑问1:不同学历进的公司规模有明显不同吗? {代...

「数据游戏」:使用 LSTM 模型预测三天后单股收盘价

2019-05-16
阅读 6 分钟
5.8k
LSTM模型是RNN的一种,其特点是在单一循环神经网络的基础上,构建出了长短记忆门,也就是可以长时间发现和记忆长依赖关系。本次比赛将使用LSTM模型来预测招商银行三天后的收盘价,也就是利用5月10日前的数据,来预测5月15日的收盘价。

「数据游戏」:使用 ARIMA 算法预测三日后招商银行收盘价

2019-05-15
阅读 6 分钟
2.3k
作者:天琼,「数据游戏」优胜队伍成员 介绍 本文整理记录了参与的一次小型数据分析竞赛「数据游戏」,竞赛目标是预测2019年5月15日A股闭市时招商银行600036的股价。 主要思路是利用ARIMA算法做时间序列预测。 使用的数据是公开的数据集 tushare。 拿到题目和数据之后,首先结合既往经历,觉得想要预测准股价,本身是一...

「数据游戏」:使用岭回归预测招商银行的股价

2019-05-14
阅读 4 分钟
2.1k
岭回归是回归的一种,它解决回归中重大疑难问题:排除多重共线性,进行变量的选择,在存在共线性问题和病态数据偏多的研究中有较大的实用价值。按照度娘百科的解释:岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代...

利用 Matplotlib 绘制数据图形(二)

2019-05-14
阅读 3 分钟
2.9k
我不得不说本 Part 实际上都是没有什么逻辑的语法规定,会比较无聊。不过这一 Part 又最有用,因为看完之后用 Matplotlib 绘图就没什么问题了(如果你对图形细节没什么要求的话~)

利用 Pandas 将数据集中的某列文本拆分为多行

2019-02-12
阅读 2 分钟
7.9k
背景 手头的项目要求用 Tableau 创建一个 story,数据集是摩拜上海城区用户使用数据。其中有一个维度的数据处理起来有点棘手。 数据格式 注意 track 这个维度的数据,它表示的是在订单时间内的行车轨迹,里面包含了大量坐标点。 按照 tidydata 的要求: Each variable forms a column. Each observation forms a row. Ea...

BBC 新闻数据可视化 Cookbook

2019-02-09
阅读 14 分钟
2.7k
BBC 的数据部门在 ggplot 的基础上,结合自身业务开发了 bbplot 。利用 bbplot 可以更加高效的创建供新闻出版使用的数据可视化图表。同时 BBC 的数据部门还撰写了本手册供有兴趣使用 bbplot 创建类似以下图表的人使用: