有赞技术 - SegmentFault 思否

DataX在有赞大数据平台的实践

2019-05-20

阅读 5 分钟

4.7k

随着公司业务发展，数据同步的场景越来越多，主要是 MySQL、Hive 与文本文件之间的数据同步，Sqoop 已经不能完全满足我们的需求。在2017年初，我们已经无法忍受 Sqoop 给我们带来的折磨，准备改造我们的数据同步工具。当时有这么些很最痛的需求：

实时计算在有赞的实践 - 效率提升之路

有赞技术

2019-05-15

阅读 5 分钟

2.6k

有赞是一个商家服务公司，提供全行业全场景的电商解决方案。在有赞，大量的业务场景依赖对实时数据的处理，作为一类基础技术组件，服务着有赞内部几十个业务产品，几百个实时计算任务，其中包括交易数据大屏，商品实时统计分析，日志平台，调用链，风控等多个业务场景，本文将介绍有赞实时计算当前的发展历程和当前的实...

浅析 Spark Shuffle 内存使用

有赞技术

2019-05-13

阅读 6 分钟

5.9k

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 S...

Druid Segment Balance 及其代价计算函数分析

有赞技术

2019-04-09

阅读 10 分钟

2.6k

Druid 的查询需要有实时和历史部分的 Segment，历史部分的 Segment 由 Historical 节点加载，所以加载的效率直接影响了查询的 RT（不考虑缓存）。查询通常需要指定一个时间范围[StartTime, EndTime]，该时间范围的内所有 Segment 需要由 Historical 加载，最差的情况是所有 Segment 不幸都储存在一个节点上，加载无疑会...

大数据开发平台(Data Platform)在有赞的最佳实践

有赞技术

2018-07-23

阅读 5 分钟

5.8k

随着公司规模的增长，对大数据的离线应用开发的需求越来越多，这些需求包括但不限于离线数据同步(MySQL/Hive/Hbase/Elastic Search 等之间的离线同步)、离线计算(Hive/MapReduce/Spark 等)、定时调度、运行结果的查询以及失败场景的报警等等。