[译] 层次时间序列预测法

2021-10-31
阅读 3 分钟
5.7k
大多数关于时间序列预测的文章都侧重于特定的聚合程度。但是,当我们能够深入分析聚合的数据,以便在更细粒度的层次上观察同一个序列时,挑战就出现了。在这种情况下,我们往往会发现,对较低水平的预测与总体预测并不一致。为了确保不会出现这种情况,我们可以采用一种称为分层时间序列(HTS)预测的方法。
封面图

[译] 解密 Lyft 如何构建自动化营销平台

2021-02-06
阅读 4 分钟
3.1k
我们以使用世界上最好的交通工具改善人们生活的使命为荣。在美国和加拿大,每个月都有超过5000万辆“碳中性”的 Lyft 搭车活动,而我们对搭车的潜力几乎一无所知。

[译] 解密 Netflix 如何提升AB实验效率

2021-01-31
阅读 3 分钟
3.2k
从波哥大的起居室,到东京的早间通勤,再到洛杉矶的海滩和柏林的宿舍,Netflix 致力于为全球1.39亿会员带来欢乐,并将人们与他们喜爱的故事联系起来。从注册过程中与 Netflix 的第一次接触开始 -- 无论是在移动设备、平板电脑、笔记本电脑还是电视上 -- 客户体验的每一个部分都充满了创新。我们通过不断地从数据中学习和...

[译] Ray Tune: 炼丹师的调参新姿势

2021-01-17
阅读 4 分钟
8.2k
在机器学习的大多数漂亮的结果背后,是一个研究生(我)或工程师花费数小时训练模型和调整算法参数。正是这种乏味无聊的工作使得自动化调参成为可能。
封面图

[译] 解密 Google 的营销归因模型最佳实践

2020-11-15
阅读 6 分钟
2.2k
假设你是一个市场营销人员,你在进行一个市场营销活动。你想知道这个活动实际上的效果如何。可以看的指标比如说,你的网站流量,注册,转化率,或者任何你希望提高的东西。

[译] 解密 Lyft 的AB实验最佳实践

2020-07-26
阅读 6 分钟
4k
科技公司努力做出数据驱动的产品决策的趋势下,Lyft 也不能免俗。 正因为如此,在线实验,或者说 a / b 测试,变得无处不在。 AB测试太火了,以至于你可能会认为它是一个完全解决的问题。 在这篇文章中,我们将解释为什么实际情况相去甚远,在 Lyft 的拼车市场一样,系统是根据网络动态发展的。 正如我们将看到的,天真...

[译] 解密 Uber 的因果推断最佳实践

2020-05-30
阅读 5 分钟
5.8k
在 Uber Labs,我们的任务是利用行为科学的洞察力和方法论来帮助产品和市场团队改善客户体验。 最近,我们引入了中介模型来解决用户的痛点,它是一种来自学术研究的统计方法。

[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]

2020-02-13
阅读 8 分钟
12.6k
R 和 Python2/Python3 在过去十年(Pandas问世后)的数据科学领域持续着激烈的竞争,随着时间的推移竞争格局也从混沌走向清晰。

[译] Facebook 如何进行基于地理位置的营销活动A/B实验设计

2019-08-31
阅读 3 分钟
2.7k
本文将通过下面3个主题讨论地理实验及其在营销活动中的使用。 什么是地理实验?它如何在营销活动中发挥作用? 理解地理实验背后的数学原理 地理实验应用举例与R代码 什么是地理实验?它如何在营销活动中发挥作用? 面包和黄油的实验学习 A/B 测试(又名对比测试)在帮助营销人员消除猜测和做出数据依据的决定方面是必不可...

[译] 解密 Uber 的仿真平台最佳实践

2019-07-22
阅读 4 分钟
3.9k
使产品测试更安全、更容易,Uber 建立了一个仿真平台,用来仿真司机和骑手在真实世界中的场景。利用一个基于离散事件的模拟器,该平台允许工程师和数据科学家快速地构建原型,并且在无风险环境下,测试新的特征和猜想。

[译] 强化学习入门篇:Simmer 仿真平台高级使用技巧

2019-07-20
阅读 43 分钟
7.2k
在仿真过程中,许多 activity 是以函数的形式作为参数传入的。这些函数可能与环境交互,比如now函数用来提取环境当前的时间,get_capacity 函数用于提取环境中resource对应的容量,get_n_generated函数用于获取生成器的状态,或者用 get_mon 函数直接收集的历史监测值。唯一需要注意的是,仿真环境必须要包含在轨迹之中...

[原] 数据科学教程:R语言与DataFrame[2019版]

2019-03-10
阅读 17 分钟
10.1k
9102年是互联网大环境不太好的一年,这一年更需要苦练基本功,数据科学领域的基本功无非就是数据处理,而 DataFrame 是其中的核心。那么,都9102年了,如何在 R 语言中优雅地使用 DataFrame 呢?是否优雅是矿工生产力差异的重要来源,本文将介绍最近三年来 DataFrame 的最近进展。

[译] 解密 Mapbox 卫星影像处理神器 Robosat

2019-02-20
阅读 5 分钟
7.5k
最近,Mapbox 开源了端到端的卫星影像特征提取工具 RoboSat。下面我将以来自 OpenAerialMap 的 Tanzania 区域的无人机影像 演示如何在自定义图像数据集上运行完整的RoboSat流程。

[原]数据科学教程: 如何使用 mlflow 管理数据科学工作流

2018-10-31
阅读 5 分钟
10.2k
背景 近年来,人工智能与数据科学领域发展迅速,传统项目在演化中也越来越复杂了,如何管理大量的机器学习项目成为一个难题。 在真正的机器学习项目中,我们需要在模型之外花费大量的时间。比如: 跟踪实验效果 机器学习算法有可配置的超参通常都是十几个到几十个不等,如何跟踪这些参数、代码以及数据在每个实验中的表...

[原] 解密 Uber 数据团队的大规模地理数据可视化神器:Deck.gl 与 H3

2018-10-22
阅读 8 分钟
10.7k
如何大规模可视化地理数据一直都是一个业界的难点,随着2015年起 Uber 在这一领域的发力,构建了基于 Deck.gl + H3 (deckgl,h3r) 的大规模数据可视化方案。一方面,极大地满足了大规模地理数据可视化的需求。另一方面,也极大地方便了数据科学家的可视化工作。在大规模空间轨迹分析、交通流量与供需预测等领域得到广泛应...

[原] RStudio Spark/Leaflet 与 GIS 最佳实践

2018-05-27
阅读 9 分钟
11.8k
近年来,基于 Spark 的大数据并行计算方案日渐成熟,在GIS领域有了很多最佳实践。过去,大多数数据分析师可能都是基于Excel/Hive进行分析工作,但是随着数据分析架构的成熟,基于 RStudio 和 Spark/Leaflet 的数据分析环境正在变得更加易用和富有生产力。本文将分享 R语言社区最前沿的 Spark/Leaflet 和 GIS 数据处理方法。

[原] 快速上手:在R中使用Mxnet[GPU/Linux]

2018-03-21
阅读 5 分钟
6.1k
mxnet 是目前深度学习领域较为前沿的一类框架,同时支持命令式与符号式编程,即提高了开发效率又保障部署效率,并且源码极为简洁,具有分布式部署效率高、多语言支持等优点。mxnet 的出现,极大地拓展了R中张量计算的能力,使得原本CPU的计算能力可以快速移植到GPU上。本文将介绍在R中如何配置 Mxnet on GPU,解决上手深...

[原] 深入对比数据科学工具箱: SparkR vs Sparklyr

2018-03-18
阅读 5 分钟
4.8k
SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初从2016年夏天的1.5版本开始支持,从使用上非常像Spark Native。Sparklyr 由 RStudio 社区维护,通过深度集成 RStudio 的方式,提供更易于扩展和使用的方法,更...

[译] 解密 Uber 数据团队的车辆定位查询算法

2017-03-11
阅读 4 分钟
10.8k
几周以前,Uber 发布了一篇关于如何构建 "如何使用GO实现极限QPS"的文章。我正好一直在用Go做关于地理空间方面的工作,期待Uber可以用GO写一些牛逼的算法来处理地理数据,然而我发现Uber低于了我的期望…

shiny工程化实践之数据库

2017-01-22
阅读 3 分钟
6.1k
数学函数: abs, acos, acosh, asin, asinh, atan, atan2, atanh, ceiling, cos, cosh, cot, coth, exp, floor, log, log10, round, sign, sin, sinh, sqrt, tan, tanh

[译]R与可重复金融:ETF数据采集与可视化(二)

2017-01-07
阅读 6 分钟
5.1k
在这个漫长假日季( 从感恩节到新年包含了圣诞节、光明节、宽扎节)意味着我们有一件事情可以做:给各个国家的ETF数据做一个Leaflet地图!

Shiny 工程化实践之HTTPS加密(三)

2016-12-23
阅读 2 分钟
4.8k
HTTPS = HTTP + SSL,也就是HTTP加密的加强版。由于HTTP协议在经过路由器会被其他人劫持,由此会导致数据泄露、篡改,一般金融电商等涉及交易的网站都应该有https加密。

时空维度挖掘(二)之 leaflet

2016-12-10
阅读 6 分钟
11.8k
本文是时空维度挖掘系列的第二篇,将引进空间挖掘中的重量级嘉宾 leaflet。在互联网竞争日益激烈的今天,一方面,online业务蓝海越来越少,扩展成本也越来越高,许多互联网企业开始介入地推,甚至出现了比如望京扫码一条街这样的经典案例;另一方面,offline的传统行业在经历这几年的洗礼,不断加强线下精细化运营的基础...

[译]使用RSTAN实现贝叶斯方法预测美国大选

2016-11-04
阅读 4 分钟
7.7k
本文将讨论如何使用STAN实现动态贝叶斯模型来预测美国大选,并考虑了一些调整过的国家民调数据、民意影响、相关各州的选举先验结果和相关投票的误差。

[原]打造数据产品的快速原型:如何使用 flexdashboard 制作dashboard

2016-10-22
阅读 4 分钟
9.5k
概述 2016年制作 Dashboard 是一种怎样的体验?我们想要的: 响应式+自适应+移动先行+敏捷开发+模块化+微服务+单页面应用, 相信这些一定已经成为了前端开发的标准配置。那我们需要使用 yarn+jquery+react+nodejs+webpack+seajs+echarts 等等前端工具才能完成我们的数据可视化吗? 2016年的Dashboard已经不一定需要如此...

时空维度挖掘(一)之 lubridate

2016-10-19
阅读 2 分钟
4.2k
时间与空间是世界运行的主要维度,各行各业的运作都受到这两个维度的影响。其中,时间这个维度本身虽然只需要一列timestamp即可存储所有信息,不过通过进一步的时间维度挖掘,我们可以从中找到许多规律来丰富特征工程。甚至在很多场景下,路过其他维度采集困难的情况下,仅仅通过时间序列也可能实现较为精准的预测任务,...

[原] Python 开发者面向文档编程的正确姿势

2016-09-30
阅读 5 分钟
6.4k
如果想看见识一个人写代码的功力,注释其实是区分老司机和小鲜肉的一个显著的分界线(有没有观察到你们公司的领导基本都在开会或者写文档),通常情况下老司机的文档量与代码量是1:1的比例,而新人往往认为写完功能模块就已经可以完成任务了。生产环境中需要面对现实中大量复杂的业务逻辑和数据校验并与各方对接,文档...

[原] 论从数据探索到数据产品的最快路径

2016-09-21
阅读 4 分钟
4.5k
加快推动从数据探索到数据产品的过程是一件很有意义的事情,数据分析要如何做到尽量和数据分析的流程紧密结合,又要方便工程化落地一直困扰着许多数据分析师和Web工程师。数据分析师不想深究太多前端JS实现,Web工程师也不想插手复杂的业务逻辑与SQL,前后分离看起来势在必行。

[译] 深入对比数据科学工具箱:Python 和 R 的 C/C++ 实现

2016-08-26
阅读 4 分钟
7.2k
几周前,我有幸在 Scipy 大会上发表了 Civis如何使用Python和R的演讲。为什么要在一个Python大会上大谈R呢?这是要挑起一个Python和R语言的一场战争吗?不是的!讨论哪个语言比较好简直是浪费时间。在 Civis,我们很愉快地同时使用这两种语言,不仅仅是在我们日常工作中解决数据科学问题,也用它们来写一些其他工具。下...

深入对比数据仓库模式:Kimball vs Inmon

2016-08-13
阅读 4 分钟
40.8k
Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph Kimbal大神 和 Bill Inmon大神提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。本文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用与对比,通过数据仓库理论武装数据仓库实践。