[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]

2020-02-13
阅读 8 分钟
11.5k
R 和 Python2/Python3 在过去十年(Pandas问世后)的数据科学领域持续着激烈的竞争,随着时间的推移竞争格局也从混沌走向清晰。

[原]数据科学教程: 如何使用 mlflow 管理数据科学工作流

2018-10-31
阅读 5 分钟
9.7k
背景 近年来,人工智能与数据科学领域发展迅速,传统项目在演化中也越来越复杂了,如何管理大量的机器学习项目成为一个难题。 在真正的机器学习项目中,我们需要在模型之外花费大量的时间。比如: 跟踪实验效果 机器学习算法有可配置的超参通常都是十几个到几十个不等,如何跟踪这些参数、代码以及数据在每个实验中的表...

[原] Python 开发者面向文档编程的正确姿势

2016-09-30
阅读 5 分钟
6.2k
如果想看见识一个人写代码的功力,注释其实是区分老司机和小鲜肉的一个显著的分界线(有没有观察到你们公司的领导基本都在开会或者写文档),通常情况下老司机的文档量与代码量是1:1的比例,而新人往往认为写完功能模块就已经可以完成任务了。生产环境中需要面对现实中大量复杂的业务逻辑和数据校验并与各方对接,文档...

[译] 深入对比数据科学工具箱:Python 和 R 的 C/C++ 实现

2016-08-26
阅读 4 分钟
6.9k
几周前,我有幸在 Scipy 大会上发表了 Civis如何使用Python和R的演讲。为什么要在一个Python大会上大谈R呢?这是要挑起一个Python和R语言的一场战争吗?不是的!讨论哪个语言比较好简直是浪费时间。在 Civis,我们很愉快地同时使用这两种语言,不仅仅是在我们日常工作中解决数据科学问题,也用它们来写一些其他工具。下...

[原] Python 开发者如何正确使用 RStudio 编辑器

2016-08-09
阅读 4 分钟
13.7k
资深Python工程师可以选择的编辑器有很多,比如 Rodeo,Spider,Eclipse,Vim,Visual Studio,Atom,Sublime Text,Jupyter等等,但是现在为什么现在很多资深的 pythonista 都开始拥抱 RStudio 呢?要回答这个问题,首先我们要了解到Python工程师的需求到底是什么?

[原] 深入对比数据科学工具箱:Python 和 R 的异常处理机制

2016-08-07
阅读 5 分钟
5.7k
异常处理,是编程语言或计算机硬件里的一种机制,用于处理软件或信息系统中出现的异常状况(即超出程序正常执行流程的某些特殊条件)。Python和R作为一门编程语言自然也是有各自的异常处理机制的,异常处理机制在代码编写中扮演着非常关键的角色,却又是许多人容易混淆的地方。对于异常机制的合理运用是直接关系到码农饭...

[原]深入对比数据科学工具箱:Python和R 的 Web 编辑器

2016-08-06
阅读 7 分钟
7.3k
工欲善其事必先利其器,如果现在要评选数据科学中最好用的Web 编辑器(注意一定是可以通过Web访问的),RStudio和Jupyter一定是角逐的最大热门,正确使用编辑器可以很大地提升我们的工作效率。本文将讲解一些RStudio和Jupyter的使用技巧。

[原]数据科学教程:如何使用Airflow调度数据科学工作流

2016-06-30
阅读 4 分钟
29.2k
Airflow 是一个我们正在用的工作流调度器,相对于传统的crontab任务管理,Airflow很好的为我们理清了复杂的任务依赖关系、监控任务执行的情况。我们喜欢它是因为它写代码太容易了,也便于调试、维护和继承重用,而不是像xml那样的配置文件用来描述DAG。

[原]打造数据产品的快速原型:Django的Docker之旅

2016-06-22
阅读 5 分钟
4k
概述 在数据科学研究中,快速验证想法是非常关键的一环,而如何快速开发出数据产品则可以有效推动整个数据科学项目研究成果在生产环境中的应用速度。 而大多数数据科学研究的场景下,更快的速度也意味着更早地发现问题和完成检验假设的闭环。 本文将介绍如何通过Docker+Django技术打造数据产品的快速原型,并通过实战案...

[原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化

2016-06-18
阅读 4 分钟
9k
在现实场景中,由于数据来源的异构,数据源的格式往往是难以统一的,这就导致大量具有价值的数据通常是以非结构化的形式聚合在一起的。对于这些非结构化数据,最常见的数据结构就是JSON,而对应的数据库就是MongoDB。

[原] 容器定义应用:数据科学的容器革命

2016-05-28
阅读 6 分钟
5.8k
随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Docker的容器化技术。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。

[译]解密 Uber 数据科学团队路径选择算法的优化之路

2016-05-20
阅读 4 分钟
9.6k
一键用车现在已经烂大街,但是 Uber 简单的界面下又隐藏着怎样复杂的后端架构和服务呢?这些复杂的路径规划和订单匹配算法又是如何让车找到人,将人送到目的地的呢?现在让我们揭开Uber App这神秘的面纱。

[译] 解密 Uber 数据部门的数据可视化最佳实践

2016-05-19
阅读 3 分钟
11.5k
在2015年初,我们在Uber规划了一个官方的数据科学团队。这个主意的缘起是:通过可视化数据探索工具从Uber的数据中发现洞见。每天,Uber 管理上亿级别的GPS位置信息。每分钟,我们的平台处理上百万的移动事件。每次我们不用技术分析就直观地知道这是一个我们错过了解我们业务的好机会。

[原]文档定义应用:数据科学的文档革命

2016-05-15
阅读 11 分钟
14.2k
随着近年来,Rstudio 通过 shiny 将R语言推向Web化,Rmarkdown 借助 Shiny 已经不断演化形成了一个动态可交互文档生态。对于数据科学的研究可以说已经是Every Thing in Rmd!本文我将介绍Rmd如何以文档定义应用的方式(Docs As an App)成为数据科学中的标准交付。

[译] 解密 Airbnb 的数据科学部门如何构建知识仓库

2016-05-10
阅读 3 分钟
6.8k
Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法。我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验。最近,我们开始解决一个令人头疼的问题。随着组织的扩大,如何确保我们的一个洞见有效地在社交网络传播开,这在我们内...

[原]解密Airbnb 自助BI神器:Superset 颠覆 Tableau

2016-05-09
阅读 3 分钟
58.9k
概述 我非常认同前百度数据工程师、现神策分析创始人桑老师最近谈到的数据分析三重境界: 统计计数 多维分析 机器学习 数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水...

[译] 解密 Airbnb 的数据流编程神器:Airflow 中的技巧和陷阱

2016-05-07
阅读 6 分钟
28.7k
Airbnb的数据工程师 Maxime Beauchemin 激动地表示道:Airflow 是一个我们正在用的工作流调度器,现在的版本已经更新到1.6.1了,并且引入了一些列调度引擎的改革。我们喜欢它是因为它写代码太容易了,也便于调试和维护。我们也喜欢全都用他来写代码,而不是像xml那样的配置文件用来描述DAG。更不用说,我们显然不用再学...

数据科学部门如何使用Python和R组合完成任务

2016-05-03
阅读 2 分钟
16.2k
和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。

[原]深入对比数据科学工具箱:Python和R之争[2016版]

2016-04-06
阅读 8 分钟
26k
在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。