[原] Python 开发者如何正确使用 RStudio 编辑器

2016-08-09
阅读 4 分钟
14k
资深Python工程师可以选择的编辑器有很多,比如 Rodeo,Spider,Eclipse,Vim,Visual Studio,Atom,Sublime Text,Jupyter等等,但是现在为什么现在很多资深的 pythonista 都开始拥抱 RStudio 呢?要回答这个问题,首先我们要了解到Python工程师的需求到底是什么?

[原] 深入对比数据科学工具箱:Python 和 R 的异常处理机制

2016-08-07
阅读 5 分钟
6k
异常处理,是编程语言或计算机硬件里的一种机制,用于处理软件或信息系统中出现的异常状况(即超出程序正常执行流程的某些特殊条件)。Python和R作为一门编程语言自然也是有各自的异常处理机制的,异常处理机制在代码编写中扮演着非常关键的角色,却又是许多人容易混淆的地方。对于异常机制的合理运用是直接关系到码农饭...

[原]深入对比数据科学工具箱:Python和R 的 Web 编辑器

2016-08-06
阅读 7 分钟
7.6k
工欲善其事必先利其器,如果现在要评选数据科学中最好用的Web 编辑器(注意一定是可以通过Web访问的),RStudio和Jupyter一定是角逐的最大热门,正确使用编辑器可以很大地提升我们的工作效率。本文将讲解一些RStudio和Jupyter的使用技巧。

天池最后一公里

2016-07-21
阅读 4 分钟
4.5k
title: "R Notebook"author: "Harry Zhu" output: html_notebook 天池最后一公里 {代码...} {代码...} {代码...} {代码...} {代码...} 时间段 包裹类型 持续时长 解决顺序 8-11点 电商 2小时 5 11-13点 O2O 2小时 1 13-17点 混合 4小时 4 17-19点 O2O 2小时 2 19-20点 混合 1小时 3 在实际商业场景中,O2O配送是赚钱的,...

[原]数据科学教程:如何使用Airflow调度数据科学工作流

2016-06-30
阅读 4 分钟
29.5k
Airflow 是一个我们正在用的工作流调度器,相对于传统的crontab任务管理,Airflow很好的为我们理清了复杂的任务依赖关系、监控任务执行的情况。我们喜欢它是因为它写代码太容易了,也便于调试、维护和继承重用,而不是像xml那样的配置文件用来描述DAG。

[原]打造数据产品的快速原型:Django的Docker之旅

2016-06-22
阅读 5 分钟
4.2k
概述 在数据科学研究中,快速验证想法是非常关键的一环,而如何快速开发出数据产品则可以有效推动整个数据科学项目研究成果在生产环境中的应用速度。 而大多数数据科学研究的场景下,更快的速度也意味着更早地发现问题和完成检验假设的闭环。 本文将介绍如何通过Docker+Django技术打造数据产品的快速原型,并通过实战案...

[原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化

2016-06-18
阅读 4 分钟
9.2k
在现实场景中,由于数据来源的异构,数据源的格式往往是难以统一的,这就导致大量具有价值的数据通常是以非结构化的形式聚合在一起的。对于这些非结构化数据,最常见的数据结构就是JSON,而对应的数据库就是MongoDB。

[原] 容器定义应用:数据科学的容器革命

2016-05-28
阅读 6 分钟
6k
随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Docker的容器化技术。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。

[译] 解密 Uber 数据团队的基础数据架构优化之路

2016-05-22
阅读 3 分钟
6.4k
如果你用过Uber,你一定会注意到它的操作是如此的简单。你一键叫车,随后车就来找你了,最后自动完成支付,整个过程行云流水。但是,在这简单的流程背后其实是用Hadoop和Spark这样复杂的基础大数据架构来支撑的。

[译]解密 Uber 数据科学团队路径选择算法的优化之路

2016-05-20
阅读 4 分钟
9.9k
一键用车现在已经烂大街,但是 Uber 简单的界面下又隐藏着怎样复杂的后端架构和服务呢?这些复杂的路径规划和订单匹配算法又是如何让车找到人,将人送到目的地的呢?现在让我们揭开Uber App这神秘的面纱。

[译] 解密 Uber 数据部门的数据可视化最佳实践

2016-05-19
阅读 3 分钟
11.7k
在2015年初,我们在Uber规划了一个官方的数据科学团队。这个主意的缘起是:通过可视化数据探索工具从Uber的数据中发现洞见。每天,Uber 管理上亿级别的GPS位置信息。每分钟,我们的平台处理上百万的移动事件。每次我们不用技术分析就直观地知道这是一个我们错过了解我们业务的好机会。

[原]文档定义应用:数据科学的文档革命

2016-05-15
阅读 11 分钟
14.5k
随着近年来,Rstudio 通过 shiny 将R语言推向Web化,Rmarkdown 借助 Shiny 已经不断演化形成了一个动态可交互文档生态。对于数据科学的研究可以说已经是Every Thing in Rmd!本文我将介绍Rmd如何以文档定义应用的方式(Docs As an App)成为数据科学中的标准交付。

[译] 解密 Airbnb 的数据科学部门如何构建知识仓库

2016-05-10
阅读 3 分钟
6.9k
Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法。我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验。最近,我们开始解决一个令人头疼的问题。随着组织的扩大,如何确保我们的一个洞见有效地在社交网络传播开,这在我们内...

[原]解密Airbnb 自助BI神器:Superset 颠覆 Tableau

2016-05-09
阅读 3 分钟
59.2k
概述 我非常认同前百度数据工程师、现神策分析创始人桑老师最近谈到的数据分析三重境界: 统计计数 多维分析 机器学习 数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水...

[译] 解密 Airbnb 的数据流编程神器:Airflow 中的技巧和陷阱

2016-05-07
阅读 6 分钟
29k
Airbnb的数据工程师 Maxime Beauchemin 激动地表示道:Airflow 是一个我们正在用的工作流调度器,现在的版本已经更新到1.6.1了,并且引入了一些列调度引擎的改革。我们喜欢它是因为它写代码太容易了,也便于调试和维护。我们也喜欢全都用他来写代码,而不是像xml那样的配置文件用来描述DAG。更不用说,我们显然不用再学...

[译]解密Airbnb的数据科学部门如何使用R语言

2016-05-04
阅读 5 分钟
8.6k
我之所以在aribnb希望成为一名数据科学家是因为这里可以有一个非常多元化的团队来一起解决重要的现实问题。我们不仅仅在性别上多样化,而且在教育背景和工作经历也是霄壤之别。我们的团队包括数理统计的专家,从教育学到基因计算的博士,甚至也包括前职业桥牌选手和退伍老兵。这个训练和经历的差异性是我们团队创造性思...

数据科学部门如何使用Python和R组合完成任务

2016-05-03
阅读 2 分钟
16.4k
和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。

阿里天池大赛实战记录之菜鸟-需求预测与分仓规划

2016-04-09
阅读 6 分钟
13.6k
新赛季,天池终于迎来了我本专业的命题:菜鸟物流规划和需求预测。接下来的比赛中,本文会陆续记录比赛的详细过程,但是不能保证最后的结果优劣,希望对大家有一些启发,文章仅供参考,请勿模仿。

[原]深入对比数据科学工具箱:Python和R之争[2016版]

2016-04-06
阅读 8 分钟
26.3k
在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。

[译]剖析勇士如何成为新赛季夺冠热门:基于Spark GraphFrames的金州勇士传球网络分析

2016-03-31
阅读 7 分钟
5.7k
databricks 最近发布了 GraphFrames,这是一个用 DataFrames 封装图处理过程的Spark插件。 我评估了网络分析并且利用丰富的NBA.com的数据对金州勇士的传球网络进行可视化。 金州勇士的传球网络 传接球 联盟 MVP Stephen Curry 接到了大多数的传球,而团队中的 MVP Draymond Green则发动了最多的传球。 我们已经看到大多...

[原]海纳百川 有容乃大:SparkR与Docker的机器学习实战

2016-03-21
阅读 5 分钟
27k
大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,SparkR和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了分布式计算的操作,还简化了安装部署的环节,我们只几...

[原]数据科学教程:R语言与DataFrame[2016版]

2016-03-16
阅读 10 分钟
17.5k
没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有先进算法的载体都是DataFrame,比如现在我们耳熟能详的逻辑回归算法、贝叶斯算法、支持向量机算法、XGBoost算法等等都建立在这个数据流编程的基础之上,我们可以在R、Python、Sca...

[原]数据科学教程:R语言与NoSQL

2016-03-12
阅读 5 分钟
8.2k
现代化数据科学中的 DataFrame 概念源起R语言,而 Python Pandas 和 Spark DateFrame 都是参考R设计的。不过在实际的网络数据通讯中,类似DateFrame这样的格式却并不是主流,真正主流的方式其实是JSON(JavaScript Object Notation),所以讨论如何处理非结构化数据就变得非常有意义了。加之,近年来 Redis、MongoDB、EL...

[原]代表最前沿R语言技术的云端量化平台:况客科技 R SDK 试用

2016-03-10
阅读 4 分钟
6.7k
况客是张丹老师的一个创业项目,张丹老师是一位资深的R语言用户,著有《R的极客理想》系列书籍与系列博文,在R语言工程化的道路上有很多值得我们学习的,可以说张丹老师代表着R语言技术的最前沿。这一次,我们来体验一下张丹老师的最新作品,重点介绍一下云端量化平台的使用体验。

[原]量化投资教程:用R语言打造量化分析Web平台

2016-03-05
阅读 10 分钟
20.5k
quantmod就是提供给宽客们使用的专业模块,Quantmod本身提供强大的数据接入能力,默认是雅虎财经的数据源,此外quantmod还以绘制专业的行情分析图表以及各种技术指标计算等功能著称,常常只要几行函数就能完成从数据获取和处理到画图的复杂功能,其工作效率之高让行家里手都觉得膛目结舌。

[原]基于RStudio Webinars的统计报告Web化与工程化实践总结

2016-02-28
阅读 4 分钟
9.6k
本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

[原]基于Spark的ADMM分布式算法在组合优化中的应用

2016-02-27
阅读 7 分钟
8.7k
在实际生产中,即使我们基于传统的MV理论构建标准二次规划模型,使得二次项系数是正定矩阵,然后约束条件采用线性约束,最后在R中调用quadprog包来求解这个一定有解的二次规划问题。然而,在实际应用中,quadprog内置算法为内点法,从内部向边界迭代穷举计算最优解,这样的方法往往在高维统计或约束条件较多时失效或者寻...

[译]打造大数据产品:Shiny的Spark之旅

2016-02-18
阅读 4 分钟
16.8k
SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,它和R中的data frame 一样支持许多操作,比如select,filter,aggregate等等。(类似dplyr包中的功能)这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算...

[原]R语言工程化实践:RStudio Server环境快速配置教程

2016-02-16
阅读 2 分钟
25.3k
RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器,如果你熟悉 RStudio的桌面版本,那么使用RStudio Server对你来说基本上没什么难度。

[译]在R中使用quadprog包求解二次规划

2016-02-16
阅读 4 分钟
11.9k
本文将探究一个被称为二次规划的优化问题,这是一种特殊形式的非线性约束优化问题。二次规划在许多领域都有运用,比如投资组合优化、求解支持向量机(SVM)分类问题等。在R中求解二次规划有许多包,这次,我们将讨论一下quadprog包。在我们开始讲解案例之前,我们将先简短地介绍一下二次规划的机理。