FinanceR - SegmentFault 思否

[原] RStudio Spark/Leaflet 与 GIS 最佳实践

2018-05-27

阅读 9 分钟

11.3k

近年来，基于 Spark 的大数据并行计算方案日渐成熟，在GIS领域有了很多最佳实践。过去，大多数数据分析师可能都是基于Excel/Hive进行分析工作，但是随着数据分析架构的成熟，基于 RStudio 和 Spark/Leaflet 的数据分析环境正在变得更加易用和富有生产力。本文将分享 R语言社区最前沿的 Spark/Leaflet 和 GIS 数据处理方法。

[原] 深入对比数据科学工具箱: SparkR vs Sparklyr

HarryZhu

2018-03-18

阅读 5 分钟

4.6k

SparkR 和 Sparklyr 是两个基于Spark的R语言接口，通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护，通过源码级别更新SparkR的最新功能，最初从2016年夏天的1.5版本开始支持，从使用上非常像Spark Native。Sparklyr 由 RStudio 社区维护，通过深度集成 RStudio 的方式，提供更易于扩展和使用的方法，更...

[译] 解密 Uber 数据团队的基础数据架构优化之路

HarryZhu

2016-05-22

阅读 3 分钟

6.2k

如果你用过Uber，你一定会注意到它的操作是如此的简单。你一键叫车，随后车就来找你了，最后自动完成支付，整个过程行云流水。但是，在这简单的流程背后其实是用Hadoop和Spark这样复杂的基础大数据架构来支撑的。

[译]剖析勇士如何成为新赛季夺冠热门：基于Spark GraphFrames的金州勇士传球网络分析

HarryZhu

2016-03-31

阅读 7 分钟

5.6k

databricks 最近发布了 GraphFrames，这是一个用 DataFrames 封装图处理过程的Spark插件。我评估了网络分析并且利用丰富的NBA.com的数据对金州勇士的传球网络进行可视化。金州勇士的传球网络传接球联盟 MVP Stephen Curry 接到了大多数的传球，而团队中的 MVP Draymond Green则发动了最多的传球。我们已经看到大多...

[原]海纳百川有容乃大：SparkR与Docker的机器学习实战

HarryZhu

2016-03-21

阅读 5 分钟

26.7k

大数据时代，我们常常面对海量数据而头疼。作为学统计出身的人，我们想折腾大数据但又不想学习Hadoop或者Java，我们更倾向于把精力放在建模和算法设计上，SparkR和Docker的完美结合，让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群！不仅仅简化了分布式计算的操作，还简化了安装部署的环节，我们只几...

[原]基于Spark的ADMM分布式算法在组合优化中的应用

HarryZhu

2016-02-27

阅读 7 分钟

8.4k

在实际生产中，即使我们基于传统的MV理论构建标准二次规划模型，使得二次项系数是正定矩阵，然后约束条件采用线性约束，最后在R中调用quadprog包来求解这个一定有解的二次规划问题。然而，在实际应用中，quadprog内置算法为内点法，从内部向边界迭代穷举计算最优解，这样的方法往往在高维统计或约束条件较多时失效或者寻...

[译]打造大数据产品：Shiny的Spark之旅

HarryZhu

2016-02-18

阅读 4 分钟

16.6k

SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构，解决了 R中的data frame只能在单机中使用的瓶颈，它和R中的data frame 一样支持许多操作，比如select,filter,aggregate等等。（类似dplyr包中的功能）这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算...

[译]大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学

HarryZhu

2016-02-12

阅读 5 分钟

25.2k

这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook，它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。