《开源大数据热力报告 2022 》 入围项目公示

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过 Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下 7 个阶段:公开数据初筛->项目技术分类->专家审议->入围公示 & 征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。

数据来源

2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包括项目 id、Star、Issue、open PR,review comment,merge PR 等。

数据初筛

项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据项目:
Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。

说明:

数据查询和分析分类聚焦大数据分析类型项目,不包括 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL 数据库数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类本次报告聚焦大数据领域,不包含大数据AI融合型项目

项目公示

现将本次入围项目(共计 92 个)予以公布,公示期为 2022 年 10 月 10 日至 10 月 16 日。

技术分类项目名称
数据集成airbytehq/airbyte alibaba/DataX apache/camel apache/flume apache/incubator-seatunnel apache/inlong apache/sqoop dbt-labs/dbt-core debezium/debeziumver verica/flink-cdc-connectors
流处理apache/beam apache/flink apache/incubator-heron apache/incubator-streamp ark apache/kafka apache/pulsar apache/samza apache/storm
数据查询和分析apache/arrow-datafusion apache/calcite apache/cassandra apache/doris apache/drill apache/druid apache/hawq apache/hbase apache/hive apache/impala apache/incubator-kyuubi apache/kylin apache/lucene apache/phoenix apache/pig apache/pinot apache/solr apache/spark apache/tez ClickHouse/ClickHouse duckdb/duckdb elastic/elasticsearch eventql/eventql greenplum-db/gpdb opensearch-project/OpenSearch prestodb/presto StarRocks/starrocks trinodb/trino uber/aresdb
数据存储apache/avro apache/bookkeeper apache/carbondata apache/hadoop-hdfs apache/hudi apache/iceberg apache/incubator-pegasus apache/kudu apache/ozone apache/parquet-format delta-io/delta hazelcast/hazelcast juicedata/juicefs
数据管理/安全/中间件apache/ambariapache/arrowapache/atlasapache/bigtopapache/hadoopapache/knoxapache/rangercube-js/cube.jsdatahub-project/datahub
数据开发apache/incubator-devlake apache/zeppelin jupyter/notebook pachyderm/pachyderm
数据可视化apache/superset dataease/dataease edp963/davinci elastic/kibana getredash/redash grafana/grafana keplergl/kepler.gl metabase/metabase shzlw/poli
数据调度和编排Alluxio/alluxio apache/airflow apache/dolphinscheduler apache/incubator-linkis apache/nifi apache/oozie apache/zookeeper dagster-io/dagster kestra-io/kestra PrefectHQ/prefect

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本
2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

发布预告

「 开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式发布。

特别致谢

联合发起方:开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源战略合作:开源中国、 InfoQ、阿里云开发者社区合作媒体:CSDN、Datafun、SegmentFault


SegmentFault_行业快讯
第一时间为开发者提供行业相关的实时热点资讯

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。

4k 声望
116.9k 粉丝
0 条评论
推荐阅读
第十六届中国大数据技术大会五大分论坛顺利举办!
1 月 8 日下午,由苏州市人民政府指导、中国计算机学会主办、苏州市吴江区人民政府支持,CCF 大数据专家委员会、苏州市吴江区工信局、吴江区东太湖度假区管委会、苏州市吴江区科技局、苏州大学未来科学与工程学院...

思否编辑部阅读 6.1k

祝贺姜宁连任 2023 Apache 软件基金会董事
在刚刚结束的 ASF Annual Meeting 上,2023 年新任董事会成员诞生了。Apache 软件基金会通过官方 blog 向大家公布了新一任董事的选举成果。

鸣飞4阅读 7.2k评论 1

姜宁 ASF 2022 董事竞选宣言:我希望能够帮助 ASF 打破地域、文化、语言的障碍
在刚刚结束的 ASF Annual Meeting 上,2022 年新任 ASF Member 及董事会成员诞生了。Apache 软件基金会通过官方 blog 向大家公布了新一任董事的选举成果。Apache 软件基金会孵化器导师,ALC Beijing 发起人,华为...

鸣飞4阅读 12.3k

封面图
张晋涛:我的 2022 总结
大家好,我是张晋涛。2022 年已经结束,我每年都会惯例的做个小回顾,今年因为阳了在恢复身体,一直拖到了今天才写。生活在 2022 年初做回顾的时候,觉得 2021 是魔幻的一年,但现在看来 2022 年其实更加魔幻。一...

张晋涛6阅读 1k评论 2

封面图
阿里云被曝 UI 抄袭,复刻 SkyWalking Trace Profiling 页面
2023 年 1 月 3 日,SkyWalking 官网发布消息,称阿里云抄袭了 SkyWalking Trace Profiling 整体页面 UI,包括页面布局、文字和分析任务设置,唯一的区别仅有颜色方案。

鸣飞5阅读 5.3k

权威发布丨2022 中国开源先锋 33 人之心尖上的开源人物
开源社主办的 COSCon'22 中国开源年会上,我们也以「开源站在十字路口」为主论坛主题展开了讨论。面对机遇与挑战并存,分裂与合作共生,风云变幻的世界,我们该何去何从?且看开源先锋们「榜样的力量」!

SegmentFault思否2阅读 2.1k

封面图
姜宁 ASF 2023 董事竞选宣言:成为开源世界的催化剂和变革者
在刚刚结束的 ASF Annual Meeting 上,2023 年新任 ASF Member 及董事会成员诞生了。Apache 软件基金会通过官方 blog 向大家公布了新一任董事的选举成果。Apache 软件基金会孵化器导师,ALC Beijing 发起人姜宁连...

波波Nadia2阅读 847

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。

4k 声望
116.9k 粉丝
宣传栏