[译] 解密 Google 的营销归因模型最佳实践

2020-11-15
阅读 6 分钟
2k
假设你是一个市场营销人员,你在进行一个市场营销活动。你想知道这个活动实际上的效果如何。可以看的指标比如说,你的网站流量,注册,转化率,或者任何你希望提高的东西。

[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]

2020-02-13
阅读 8 分钟
11.5k
R 和 Python2/Python3 在过去十年(Pandas问世后)的数据科学领域持续着激烈的竞争,随着时间的推移竞争格局也从混沌走向清晰。

[译] Facebook 如何进行基于地理位置的营销活动A/B实验设计

2019-08-31
阅读 3 分钟
2.4k
本文将通过下面3个主题讨论地理实验及其在营销活动中的使用。 什么是地理实验?它如何在营销活动中发挥作用? 理解地理实验背后的数学原理 地理实验应用举例与R代码 什么是地理实验?它如何在营销活动中发挥作用? 面包和黄油的实验学习 A/B 测试(又名对比测试)在帮助营销人员消除猜测和做出数据依据的决定方面是必不可...

[译] 强化学习入门篇:Simmer 仿真平台高级使用技巧

2019-07-20
阅读 43 分钟
6.8k
在仿真过程中,许多 activity 是以函数的形式作为参数传入的。这些函数可能与环境交互,比如now函数用来提取环境当前的时间,get_capacity 函数用于提取环境中resource对应的容量,get_n_generated函数用于获取生成器的状态,或者用 get_mon 函数直接收集的历史监测值。唯一需要注意的是,仿真环境必须要包含在轨迹之中...

[原] 数据科学教程:R语言与DataFrame[2019版]

2019-03-10
阅读 17 分钟
9.6k
9102年是互联网大环境不太好的一年,这一年更需要苦练基本功,数据科学领域的基本功无非就是数据处理,而 DataFrame 是其中的核心。那么,都9102年了,如何在 R 语言中优雅地使用 DataFrame 呢?是否优雅是矿工生产力差异的重要来源,本文将介绍最近三年来 DataFrame 的最近进展。

[原]数据科学教程: 如何使用 mlflow 管理数据科学工作流

2018-10-31
阅读 5 分钟
9.7k
背景 近年来,人工智能与数据科学领域发展迅速,传统项目在演化中也越来越复杂了,如何管理大量的机器学习项目成为一个难题。 在真正的机器学习项目中,我们需要在模型之外花费大量的时间。比如: 跟踪实验效果 机器学习算法有可配置的超参通常都是十几个到几十个不等,如何跟踪这些参数、代码以及数据在每个实验中的表...

[原] 解密 Uber 数据团队的大规模地理数据可视化神器:Deck.gl 与 H3

2018-10-22
阅读 8 分钟
9.8k
如何大规模可视化地理数据一直都是一个业界的难点,随着2015年起 Uber 在这一领域的发力,构建了基于 Deck.gl + H3 (deckgl,h3r) 的大规模数据可视化方案。一方面,极大地满足了大规模地理数据可视化的需求。另一方面,也极大地方便了数据科学家的可视化工作。在大规模空间轨迹分析、交通流量与供需预测等领域得到广泛应...

[原] RStudio Spark/Leaflet 与 GIS 最佳实践

2018-05-27
阅读 9 分钟
11.3k
近年来,基于 Spark 的大数据并行计算方案日渐成熟,在GIS领域有了很多最佳实践。过去,大多数数据分析师可能都是基于Excel/Hive进行分析工作,但是随着数据分析架构的成熟,基于 RStudio 和 Spark/Leaflet 的数据分析环境正在变得更加易用和富有生产力。本文将分享 R语言社区最前沿的 Spark/Leaflet 和 GIS 数据处理方法。

[原] 快速上手:在R中使用Mxnet[GPU/Linux]

2018-03-21
阅读 5 分钟
5.7k
mxnet 是目前深度学习领域较为前沿的一类框架,同时支持命令式与符号式编程,即提高了开发效率又保障部署效率,并且源码极为简洁,具有分布式部署效率高、多语言支持等优点。mxnet 的出现,极大地拓展了R中张量计算的能力,使得原本CPU的计算能力可以快速移植到GPU上。本文将介绍在R中如何配置 Mxnet on GPU,解决上手深...

[原] 深入对比数据科学工具箱: SparkR vs Sparklyr

2018-03-18
阅读 5 分钟
4.6k
SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初从2016年夏天的1.5版本开始支持,从使用上非常像Spark Native。Sparklyr 由 RStudio 社区维护,通过深度集成 RStudio 的方式,提供更易于扩展和使用的方法,更...

shiny工程化实践之数据库

2017-01-22
阅读 3 分钟
5.9k
数学函数: abs, acos, acosh, asin, asinh, atan, atan2, atanh, ceiling, cos, cosh, cot, coth, exp, floor, log, log10, round, sign, sin, sinh, sqrt, tan, tanh

[译]R与可重复金融:ETF数据采集与可视化(二)

2017-01-07
阅读 6 分钟
4.8k
在这个漫长假日季( 从感恩节到新年包含了圣诞节、光明节、宽扎节)意味着我们有一件事情可以做:给各个国家的ETF数据做一个Leaflet地图!

Shiny 工程化实践之HTTPS加密(三)

2016-12-23
阅读 2 分钟
4.5k
HTTPS = HTTP + SSL,也就是HTTP加密的加强版。由于HTTP协议在经过路由器会被其他人劫持,由此会导致数据泄露、篡改,一般金融电商等涉及交易的网站都应该有https加密。

时空维度挖掘(二)之 leaflet

2016-12-10
阅读 6 分钟
11.4k
本文是时空维度挖掘系列的第二篇,将引进空间挖掘中的重量级嘉宾 leaflet。在互联网竞争日益激烈的今天,一方面,online业务蓝海越来越少,扩展成本也越来越高,许多互联网企业开始介入地推,甚至出现了比如望京扫码一条街这样的经典案例;另一方面,offline的传统行业在经历这几年的洗礼,不断加强线下精细化运营的基础...

[译]使用RSTAN实现贝叶斯方法预测美国大选

2016-11-04
阅读 4 分钟
7.4k
本文将讨论如何使用STAN实现动态贝叶斯模型来预测美国大选,并考虑了一些调整过的国家民调数据、民意影响、相关各州的选举先验结果和相关投票的误差。

[原]打造数据产品的快速原型:如何使用 flexdashboard 制作dashboard

2016-10-22
阅读 4 分钟
9.2k
概述 2016年制作 Dashboard 是一种怎样的体验?我们想要的: 响应式+自适应+移动先行+敏捷开发+模块化+微服务+单页面应用, 相信这些一定已经成为了前端开发的标准配置。那我们需要使用 yarn+jquery+react+nodejs+webpack+seajs+echarts 等等前端工具才能完成我们的数据可视化吗? 2016年的Dashboard已经不一定需要如此...

时空维度挖掘(一)之 lubridate

2016-10-19
阅读 2 分钟
4k
时间与空间是世界运行的主要维度,各行各业的运作都受到这两个维度的影响。其中,时间这个维度本身虽然只需要一列timestamp即可存储所有信息,不过通过进一步的时间维度挖掘,我们可以从中找到许多规律来丰富特征工程。甚至在很多场景下,路过其他维度采集困难的情况下,仅仅通过时间序列也可能实现较为精准的预测任务,...

[原] Python 开发者面向文档编程的正确姿势

2016-09-30
阅读 5 分钟
6.2k
如果想看见识一个人写代码的功力,注释其实是区分老司机和小鲜肉的一个显著的分界线(有没有观察到你们公司的领导基本都在开会或者写文档),通常情况下老司机的文档量与代码量是1:1的比例,而新人往往认为写完功能模块就已经可以完成任务了。生产环境中需要面对现实中大量复杂的业务逻辑和数据校验并与各方对接,文档...

[原] 论从数据探索到数据产品的最快路径

2016-09-21
阅读 4 分钟
4.3k
加快推动从数据探索到数据产品的过程是一件很有意义的事情,数据分析要如何做到尽量和数据分析的流程紧密结合,又要方便工程化落地一直困扰着许多数据分析师和Web工程师。数据分析师不想深究太多前端JS实现,Web工程师也不想插手复杂的业务逻辑与SQL,前后分离看起来势在必行。

[译] 深入对比数据科学工具箱:Python 和 R 的 C/C++ 实现

2016-08-26
阅读 4 分钟
6.9k
几周前,我有幸在 Scipy 大会上发表了 Civis如何使用Python和R的演讲。为什么要在一个Python大会上大谈R呢?这是要挑起一个Python和R语言的一场战争吗?不是的!讨论哪个语言比较好简直是浪费时间。在 Civis,我们很愉快地同时使用这两种语言,不仅仅是在我们日常工作中解决数据科学问题,也用它们来写一些其他工具。下...

[原] Python 开发者如何正确使用 RStudio 编辑器

2016-08-09
阅读 4 分钟
13.7k
资深Python工程师可以选择的编辑器有很多,比如 Rodeo,Spider,Eclipse,Vim,Visual Studio,Atom,Sublime Text,Jupyter等等,但是现在为什么现在很多资深的 pythonista 都开始拥抱 RStudio 呢?要回答这个问题,首先我们要了解到Python工程师的需求到底是什么?

[原] 深入对比数据科学工具箱:Python 和 R 的异常处理机制

2016-08-07
阅读 5 分钟
5.7k
异常处理,是编程语言或计算机硬件里的一种机制,用于处理软件或信息系统中出现的异常状况(即超出程序正常执行流程的某些特殊条件)。Python和R作为一门编程语言自然也是有各自的异常处理机制的,异常处理机制在代码编写中扮演着非常关键的角色,却又是许多人容易混淆的地方。对于异常机制的合理运用是直接关系到码农饭...

[原]深入对比数据科学工具箱:Python和R 的 Web 编辑器

2016-08-06
阅读 7 分钟
7.3k
工欲善其事必先利其器,如果现在要评选数据科学中最好用的Web 编辑器(注意一定是可以通过Web访问的),RStudio和Jupyter一定是角逐的最大热门,正确使用编辑器可以很大地提升我们的工作效率。本文将讲解一些RStudio和Jupyter的使用技巧。

天池最后一公里

2016-07-21
阅读 4 分钟
4.4k
title: "R Notebook"author: "Harry Zhu" output: html_notebook 天池最后一公里 {代码...} {代码...} {代码...} {代码...} {代码...} 时间段 包裹类型 持续时长 解决顺序 8-11点 电商 2小时 5 11-13点 O2O 2小时 1 13-17点 混合 4小时 4 17-19点 O2O 2小时 2 19-20点 混合 1小时 3 在实际商业场景中,O2O配送是赚钱的,...

[原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化

2016-06-18
阅读 4 分钟
9k
在现实场景中,由于数据来源的异构,数据源的格式往往是难以统一的,这就导致大量具有价值的数据通常是以非结构化的形式聚合在一起的。对于这些非结构化数据,最常见的数据结构就是JSON,而对应的数据库就是MongoDB。

[原] 容器定义应用:数据科学的容器革命

2016-05-28
阅读 6 分钟
5.8k
随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Docker的容器化技术。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。

[译]解密 Uber 数据科学团队路径选择算法的优化之路

2016-05-20
阅读 4 分钟
9.6k
一键用车现在已经烂大街,但是 Uber 简单的界面下又隐藏着怎样复杂的后端架构和服务呢?这些复杂的路径规划和订单匹配算法又是如何让车找到人,将人送到目的地的呢?现在让我们揭开Uber App这神秘的面纱。

[译] 解密 Uber 数据部门的数据可视化最佳实践

2016-05-19
阅读 3 分钟
11.5k
在2015年初,我们在Uber规划了一个官方的数据科学团队。这个主意的缘起是:通过可视化数据探索工具从Uber的数据中发现洞见。每天,Uber 管理上亿级别的GPS位置信息。每分钟,我们的平台处理上百万的移动事件。每次我们不用技术分析就直观地知道这是一个我们错过了解我们业务的好机会。

[原]文档定义应用:数据科学的文档革命

2016-05-15
阅读 11 分钟
14.2k
随着近年来,Rstudio 通过 shiny 将R语言推向Web化,Rmarkdown 借助 Shiny 已经不断演化形成了一个动态可交互文档生态。对于数据科学的研究可以说已经是Every Thing in Rmd!本文我将介绍Rmd如何以文档定义应用的方式(Docs As an App)成为数据科学中的标准交付。

[译] 解密 Airbnb 的数据科学部门如何构建知识仓库

2016-05-10
阅读 3 分钟
6.8k
Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法。我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验。最近,我们开始解决一个令人头疼的问题。随着组织的扩大,如何确保我们的一个洞见有效地在社交网络传播开,这在我们内...