特别希望国内的众多开发者对开源有更多的了解,抛弃”拿来主义“,积极拥抱开源、参与开源,为国内开源崛起贡献一份自己的力量。—— 易观大数据平台总监,Apache DolphinScheduler PPMC 代立冬
2020 中国开源年会 (COSCon'20) 将于 10月24-25日由开源社举办,SegmentFault 思否社区为本次大会的战略合作媒体,并将进行独家的线上直播。
本次年会将采取线上线下相结合的形式,北京、上海、深圳、成都、长沙五城联动,11 个分会场,线上线下同时进行。
为了让大家进一步了解开源、了解本次 COSCon’20,SegmentFault 思否特别采访了大数据分会场的出品人 —— 代立冬。
代立冬是易观大数据平台总监 & Apache DolphinScheduler PPMC,负责每日数百亿条数据处理链条的流程规划,技术选型,技术攻关及人才梯队建设等工作。专注于数据领域研发数据平台架构10年,擅长于数据平台建设、集群性能调优、数据仓库建设,曾任多家大数据公司数据架构师。
以下为对代立冬老师的访谈内容:
1、您认为开源对于开发者来说,最大的价值和意义是什么?
1)可以不必再重复造轮子了,可以选择在开源项目的基础上做二次开发,开发者有更多的精力专注在自己想做的事情上;
2)对已经参与开源的开发者来说,开源社区高手众多,高手之间的碰撞会使得开发者的技术能力、沟通协作能力得到极大提升,尤其是沟通协作这种软实力对个人日后的职业成长十分有帮助;
3)开源已经成为技术实力的象征,有句话说得好 "talk is cheap, show me the code", 靠代码说话已经变得流行,很多技术岗位优先考虑开源社区的 Contributor 或者 Committer。
2、您认为什么样的开源项目算是优质的开源项目?有没有一些评判标准?
借用 Apache 组织的一个重要观点 "社区 > 代码", 优质的项目是有足够多样性的社区的, 社区的繁荣程度决定这个项目能走多远,换句话说更看重人的能力,贡献者可能来自不同的公司,机构,使得项目能够长期发展。
3、能否分享一下您对国内开源技术和产品的看法?
这 2 年国内的开源技术氛围得到了很大的改善,国内也建立有类似 Apache license 这种级别的木兰协议,最近国内也成立了开放原子开源基金会,这在过去都是很难想象的。随着开源氛围的逐渐变好,国内的开源技术实力也在迎头追赶国际顶尖水平,有些项目已经达到国际领先水平,但大部分项目还是很缺运作经验的,需要向国外如 Apache 这样的国际顶级组织学习。
4、您在具体开源的过程中遇到的最大的挑战是什么?
我们在做大数据任务调度 - Apache DolphinScheduler 的过程中遇到过很多挑战,最大的挑战还是如何让这个新生的社区完成从 0 到 1 的过程。万事开头难,开源也不例外, 开源不是把代码开放出去就行了,还需要找到种子用户和开发者,可以说我们的第一批用户很多都是手把手教人部署,教人用起来,最终获得第一批用户的认可,这极大的增强了我们对项目的信心,随着用户越来越多,逐渐完成了从 0 到 1 的过程。
5、对于开源文化未来的发展,您有什么期待?
特别希望国内的众多开发者对开源有更多的了解,抛弃开源是别人的事情,抛弃”拿来主义“,积极拥抱开源、参与开源,为国内开源崛起贡献一份自己的力量。
6、请向大家介绍一下今年的 COSCon'20 & Apache Roadshow 大会数据技术专场吧?
随着数字化转型成为众多企业的共识,大数据量级的爆炸性增长和人们对数据的实时性的秒级响应要求,技术上如何应对是非常有意思的课题,本次特别邀请 12 位一线大咖分享干货,敬请期待!
移动互联网、物联网时代的到来,使得数据量级呈几何级爆炸性增长, 百亿级数据处理已经不新鲜,数据量猛增也对大数据处理链条的各个环节提出了新的要求和挑战,这态势也使得国内的大数据技术得以崭露头角,出现了不少由国人主导的国际性项目。
大数据前沿到底发生了哪些变化,数据技术专场特别邀请了 12 位一线大咖来分享国内外最前沿的先进技术和全球的开源现状及趋势。由于疫情原因,非常欢迎大家直播时多多交流,也欢迎为开源献上一份自己的力量。
第一场 10月24日 13:30 开始
主持人
缪翎,百度高级研发工程师 & Apache Doris PPMC, 负责 Apache Doris(Incubating) 设计研发工作。负责百度分布式数仓平台的设计开发,以及 Apache Doris 的开源推广工作。主要在数据分析,查询优化,开源等相关领域进行探索。
数据库化的分布式数据库中间件生态圈极简使用策略
潘娟,京东数科 - 高级DBA & Apache ShardingSphere PMC
作为 Apache 顶级项目的 ShardingSphere,将会在最新发布版本中迈向从分布式数据库中间件生态圈到分布式数据库的转型。已在 GitHub 上收获 12k+ Star 的开源人气项目将进一步根据用户需求和应用场景,在这个数据库化的过程中全力打造更为简单、丰富、一体化、可插拔的分布式数据库产品体系,从而为用户提供最简单易用、功能强大、性能稳定的分布式数据库化产品。本次分享将为详细阐述数据库化的产品特性、架构体系、极简落地方案实践等核心内容。
通过 DataQL 在数据展现类项目中提升3倍人效
赵永春,DataQL - 项目发起人
基于 DataQL 的数据聚合能力,为应用提供一个接口配置“界面”。使得使用者无需开发任何代码就能配置一个满足需求的接口。整个接口配置、测试、冒烟、发布。一站式都通过配套图形化 UI 界面完成。这种研发模式的变革使得,研发流程中对后端依赖大大降低从而提升近3倍人效。
开源、高效的物联网大数据平台
桑树多,涛思数据 - 应用架构师
充分利用物联网数据的特点,针对通用大数据处理平台的挑战,涛思数据推出了一高性能、高可靠、可伸缩、零管理的物联网大数据平台TDengine,而且将核心代码,包括集群功能全部开源,获得全球开发者的高度关注,在GitHub上的star已经超过14K。本演讲将介绍TDengine的技术创新之处,包括存储引擎、计算引擎、流式计算、多维分析等等。
Apache Doris: 一款支持对海量数据进行快速分析的 MPP 数据库
陈明雨,百度 - 资深研发工程师 & Doris PPMC
Apache Doris(Incubating)是一款支持对海量数据进行快速分析的 MPP 数据库。Doris 自设计之初,就秉承着极简运维、高效可靠、易学易用的原则,为用户提供全面而高效的海量数据分析能力。自 2018 年底进入 Apache 孵化器后,Doris 已经发布了 5 个大版本,接收了来自社区 100 多位开发者的贡献,并在多家互联网头部企业和垂直领域企业落地和应用。本次演讲主要包含 Doris 的发展历程、系统架构、主要特性和应用案例四个部分,帮助听众对 Doris 有一个全面而具象的认识。最后,陈明雨会介绍 Doris 社区目前的发展情况,希望能够帮助开发者更方便快捷的加入开源社区。
Github 2020全域分析报告
王皓月,华东师范大学 - 硕士研究生
在开源日益重要的今天,需要一份建立在全域大数据基础上的相对完整、可以反复进行推演的数据报告(报告、数据、算法均需开源)。GitHub分析报告是X-lab发起的GitHub开源分析报告项目,旨在通过分析Github全网的开发者行为日志,通过数据的视角,来观察全球范围内的开源现状、进展趋势、演化特征、以及未来挑战等问题,以帮助所有人更好地理解和参与开源。
隐私计算开源框架Rosetta:数据安全融合新方向
谢翔博士,矩阵元 - 算法科学家
数据隐私问题已经成为大数据和AI行业最为核心的痛点,如何保证分布在机构间的数据在保护各自隐私的前提下进行融合计算已经成为迫切需求。隐私计算为机构间数据的安全融合提供了新的技术方向,而密码学则是隐私计算中最为核心的技术之一。本次报告中,谢翔将系统的讲述隐私计算整个行业的最新进展,密码学技术的基本原理以及密码学与大数据领域、AI领域的结合。最后,将介绍基于TensorFlow的隐私计算开源框架Rosetta,让不熟悉密码学的大数据、AI研究人员/开发者也可以无门槛的使用隐私计算技术。
第二场 10月25日 13:30 开始
Apache DolphinScheduler是如何支撑每日十万级大数据任务调度的
代立冬,易观数科 - 大数据平台总监
本次分享首先会介绍DolphinScheduler(Incubating)社区的发展情况,接着介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,然后介绍DolphinScheduler架构的变迁过程。分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会介绍一些用户案例和使用场景及开源的历程。
从 ClickHouse 的名字来历说起
朱凯,远光软件 - 大数据/平台开发部 总经理
ClickHouse是一款开源的OLAP数据库,自2016年开源以来它一直保持着飞速的发展速度。其闪电般的查询性能和活跃的社区,让它成为目前业界公认的OLAP数据库黑马。这次分享将带大家快速领略ClickHouse的全貌特征,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些场景。与此同时,朱凯也将和你一同分享2020年ClickHouse最令人期待的 top 5 新功能。
Apache IoTDB:工业物联网数据库管理系统
黄向东,清华大学 - 助理研究员
工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。Apache IoTDB 是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,Apache IoTDB的基本概念和特性,并简单介绍基于Apache IoTDB的相关实际案例,帮助听众了解如何基于Apache IoT生态,解决工业物联网数据应用需求。
Apache Kylin 4:凤凰涅槃,浴火重生
张智超,上海跬智信息 - 大数据架构师
Apache Kylin 4.0 Alpha版本日前已经发布,它是Apache Kylin 4的第一个早期预览版本,是继Kylin 3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍Apache Kylin 4.0。
T3出行构建数据湖上低延迟数据管道的实践
杨华,T3 出行 - 大数据平台负责人
赵玉威,T3 出行 - 调度平台高级研发工程师
T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于 Apache Hudi 构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3 出行 需要对数据进行 ETL 等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了 Easy Scheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着 DolphinScheduler 加入 Apache 孵化器进行孵化并快速迭代,T3 出行也随之升级到了 DolphinScheduler 并围绕它打造了一个企业级的大数据调度管理平台。这次分享 T3 出行将会对基于 Apache DolphinScheduler 支撑数据湖上低延迟数据加工的实践进行介绍。
PowerJob:新一代分布式任务调度与计算框架
滕佶祺,阿里巴巴 - 开发工程师
PowerJob是新一代的任务调度中间件,旨在解决大型离线任务的调度与计算问题。PowerJob立足于当前繁杂的业务特性,在任务调度的基础上,创新性地提供工作流 workflow 和分布式任务计算 MapReduce 两大核心功能。本次演讲将会为大家揭秘 PowerJob 项目的起源、旨在解决的问题和背后的技术剖析。
彩蛋:QA & 抽奖
会场还设有 QA 和 抽奖 环节,奖品如抱枕、热火大数据书籍等赠送。数据技术专场 24 日特别邀请 Apache Doris PPMC 缪翎 女士主持(传说中一个明明可以靠颜值却偏偏拼才华的奇女子)!!!
大会已开启报名,对 COSCon'20 内容感兴趣的你,可以通过下方的链接或点击阅读原文进行报名,期待你的参与!除了在线上观看直播外,本次峰会将在北京、上海、深圳、成都、长沙五城展开线下聚会,审核通过后即可免费报名参加~
会议报名链接:
https://www.bagevent.com/even...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。