关于 Apache Pulsar
Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。
GitHub 地址:http://github.com/apache/pulsar/
关于 ApacheCon Asia
ApacheCon Asia 是 ApacheCon 组委会首次针对亚太地区举办的 ApacheCon 在线会议,主要目标在于更好地服务亚太地区快速增长的 Apache 用户和贡献者。ApacheCon Asia 2021 将于 2021 年 8 月 6-8 日在线举办。
近期 ApacheCon Asia 2021 团队正式公布了大会日程,Apache Pulsar 社区积极参与本次年度开源盛会,你在消息系统、大数据、流处理等专场都能看到 Apache Pulsar 社区成员的议题,内容丰富,欢迎关注。下面将相关技术议题列出,方便参考。
大数据
2021-08-08 13:30
使用 Hashicorp Vault 建立一个认证和授权系统
议题简介:学习如何使用 Hashicorp Vault 为 Apache Pulsar 建立一个认证和授权系统。Vault 提供了一种安全的方式来生成令牌和存储敏感数据,而 Pulsar 有一个可插拔的架构用于认证、授权和密钥管理。本讲座将介绍如何基于 Vault 为 Pulsar 建立一个认证和验证系统,主要包括以下几点:
- 基于 Vault 构建灵活的认证,确保 Pulsar 集群可以轻松访问各种系统,如 LDAP
- 如何实现基于 Vault 的应用角色的服务账户
分享嘉宾:俄广宁,Apache Pulsar Committer,Apache Pulsar IO 和 Apache Pulsar Manager 主要贡献者和维护者,目前在 StreamNative 公司担任高级软件工程师,专门从事云平台、云计算和大数据相关领域的工作。
流处理
2021-08-08 14:10
结构化的数据流
议题简介:类型安全在任何围绕流/队列构建的应用程序中都是极其重要的。类型定义和演化可以在应用程序中构建,也可以依赖数据层来支持,从而使得应用程序只关注业务逻辑,而无需关注数据存储和演化的方式。正是这种特性使得传统关系型数据库在现代 NoSQL 数据库的挑战中依然屹立不倒。在现代软件架构中,异步通信(通过流/队列)是必不可少的。当数据存储和查询设计随着异步通信而改变时,类型安全依然非常重要。
在本次演讲中,我们将讨论在流数据上建立结构(schema)的方法,并以 Apache Pulsar 作为示例。 Apache Pulsar 为结构化流处理提供服务器端和客户端支持。我们已经在生产中使用 Pulsar 在微服务之间进行异步通信超过 1.5 年。
此次演讲介绍什么是 Schema、如何表示 Schema、Apache Pulsar 服务器和客户端提供了什么、我们如何使用 Pulsar 的 Schema 支持构建我们的用例以及从中获得的经验和技术细节。
分享嘉宾:Shivji Kumar Jha,Shiv 是 Nutanix 的高级软件开发人员,在 beam 团队工作,帮助 Nutanix 客户将混合云使用的云成本和安全风险降到最低。Shiv 喜欢花时间在数据存储(数据库、数据流、分析等)上,并为 MySQL 和 Pulsar 代码库做出了贡献。Shiv 是一个狂热的读者(科技、小说、经济学等),并一直在寻找简化软件架构的方法。
2021-08-08 15:30
使用 Pulsar Functions 处理实时机器学习
议题简介:在这次演讲中,我将介绍一种使用Apache Pulsar Functions部署机器学习模型以提供实时预测的技术。为了提供实时预测,该模型通常从调用者那里接收一个数据点,并期望在几毫秒内提供一个准确的预测。在整个分享中,我将展示制作一个完全训练过的 ML 所需的步骤,它可以根据实时交通信息、客户的位置和将要完成订单的餐厅来预测送餐服务的时间。
分享嘉宾:David Kjerrumgaard,《Pulsar in Action》的作者,也是 Splunk 消息团队的首席软件工程师,负责 Splunk 内部的 Pulsar-as-a-Service 平台。在加入 Splunk 之前,他是 Streamlio 的解决方案架构总监,负责开发基于 Apache Pulsar 的最佳实践和解决方案。
消息系统
2021-08-06 13:30
Apache BookKeeper (作为 Key-value 存储) 及其应用案例
议题简介:为了充分利用流后端技术的最佳性能特征,了解流处理服务器服如何存储数据的细枝末节是很重要的。如果充分了解这一点,你就可以设计对应场景解决方案,充分利用好手头的资源,并为手头资源获得最佳的一致性、可用性、延迟和吞吐量。
在该演讲中,我们将探讨 Apache Pulsar 的存储层(Apache BookKeeper),BookKeeper 存储语义的基本情况,它是如何用于不同的场景(甚至是 Pulsar 以外的情况),了解 Pulsar 的存储对象模型,不同类型的数据结构和 Pulsar 在其中使用的算法,以及如何映射到 Pulsar 默认提供的存储类语义。当然,你也可以通过一些额外的代码来改变存储的后端。本演讲将为你提供相关背景知识,使你能用 Pulsar 正确地处理数据。本演讲重点将放在存储后端上,这样除了 Pulsar,也能将相关原理和知识应用于不同的数据存储或流系统。
分享嘉宾:Shivji Kumar Jha, Nutanix 高级软件开发人员,在 beam 团队工作,帮助 Nutanix 客户最大限度地降低混合云使用的云成本和安全风险。Shiv 的工作内容包括 Nutanix 的所有 Pulsar,管理 4 个 Pulsar 集群(30 个节点)和围绕它的使用案例。Shiv 喜欢花时间在数据存储(数据库、数据流、分析等)上,并为 MySQL 和 Pulsar 代码库做出了贡献。Shiv 是一个狂热的读者(科技、小说、经济学等),并一直在寻找简化软件架构的方法。
2021-08-06 14:50
BIGO 的 Apache Pulsar 最佳实践
议题简介:在人工智能技术的支持下,BIGO 推出的视频产品和服务已经获得了巨大人气,用户遍布全球 150 多个国家地区,如 Bigo Live(直播)和Likee(短视频)等。Bigo Live 在150 多个国家地区提供服务,Likee 有 1 亿多用户,在 Z 世代中很受欢迎。在过去的几年里,我们部署了大量 Kafka 集群来进行支持实时 ETL 和短视频推荐。Apache Pulsar 的分层架构和诸多新特性如低延迟、水平扩展、多租户等帮助我们解决了生产中的很多问题。我们已经采用 Apache Pulsar 构建消息处理系统,特别是在实时ETL、短视频推荐和实时数据报告方面。
在这个演讲中,我将分享我们使用 KoP(Kafka-on-Pulsar)的经验,探讨如何从 Kafka 无缝迁移到 Pulsar,特别是在提高性能和稳定性方面。我还将分享 Apache Pulsar 在 BIGO 的其他主要应用场景,比如数百万量级主题、实时机器学习,以及与 Flink 和 Flink SQL的集成。
分享嘉宾:陈航,Apache Pulsar Committer ,BIGO 消息平台团队的负责人,负责创建一个集中的 pub-sub 消息平台,该平台提供大量的服务/应用流量。他将 Apache Pulsar 引入 BIGO 消息平台,并与上游和下游系统如 Flink、ClickHouse 和其他内部系统集成,进行实时推荐和分析。他专注于 Pulsar 的性能调整,新功能开发和 Pulsar 生态系统的整合。
2021-08-06 15:30
从 Apache Kafka 到 Apache Pulsar - 系统迁移生存指南
议题简介:在本次演讲中,在首先对 Kafka 和 Pulsar 进行简要的、高层次的架构比较之后,我们把重点放在对比 Kafka 和 Pulsar 之间的消息发布/使用模型,它们之间的异同之处,以及相对应的对应用程序设计和实现的影响。最后我们将介绍可用的不同迁移选项,模式和工具,以实现从 Kafka 到 Pulsar 的无缝应用程序迁移路径。
分享嘉宾:孟亚斌,DataStax 领衔架构师。近年来,他的重点主要是大型、分布式数据库和流处理系统解决方案的设计和咨询。加入 DataStax 之前,他的职业生涯大部分时间都集中在关系型数据库、数据仓库、商业智能以及 NoSQL 数据库领域中的系统设计、实现和咨询。
2021-08-06 16:10
Apache Pulsar 在联邦学习的案例详解
议题简介:联邦学习(FL)是一种机器学习技术,它使多个分散的组织在不暴露本地数据样本的情况下训练一个模型。在联邦学习训练过程中,参与者之间也会交换大量的加密信息,以汇总形成全局模型。由于消息的重要性,以及对实时性和顺序性的要求,它带来了一些传输上的挑战。 在本演讲环节,我们将探讨如何用 Apache Pulsar 项目解决上述挑战,并详细介绍在流行的联邦学习项目 FATE(https://github.com/FederatedA... 中如何使用 Pulsar 做联合训练。
分享嘉宾:陈家豪,VMware 工程师
2021-08-08 13:30
Apache Pulsar 在日志场景的最佳实践
议题简介:ELK+Apache Kafka 是一种常见的日志场景的架构。然而,如今情况发生了变化,云原生变得流行,微服务架构被到处采用。这带来了更多的服务,日志数量和类别也越来越多。Apache Kafka 不能满足云原生日志场景的所有要求,如操作简单、百万主题管理、租赁资源隔离等。Apache Pulsar 是一个更好的解决方案,具有云原生架构和更好的性能。本演讲重点介绍了 Apache Pulsar 作为一种新的日志消息解决方案,包括对日志消息系统的要求、Kafka 与 Pulsar 解决方案对比、Pulsar 最佳实践和 Pulsar Functions/连接器介绍。
分享嘉宾:魏彬,StreamNative 解决方案工程师,他在 ELK、Apache Kafka、Apache Pulsar、Prometheus 等大数据技术方面经验丰富。
2021-08-08 14:10
Apache Pulsar —— 云原生消息队列在腾讯云的实践
议题简介:
Apache Pulsar 目前在腾讯云上已经大规模使用,消息队列在云原生环境面临了诸多挑战,Pulsar 是一个更好的解决方案。本次演讲我们将介绍Pulsar在云原生环境上的一些实践经验,如:如何快速动态扩缩容,如何提升集群资源的利用率,集群形态等等。
分享嘉宾:林琳,腾讯云高级工程师,Apache Pulsar Commiter,专注于中间件领域,对消息队列、微服务等方面有丰富的经验。 2019 年加入腾讯,现负责腾讯云 TDMQ 的建设,致力于打造稳定、高效、可扩展的底层基础组件与服务。
2021-08-08 14:50
Apache Pulsar 在腾讯百万级 Topic 下的应用与实践
议题简介:Apache Pulsar 作为下一代云原生分布式消息流平台,集消息、存储和函数式计算为一体,并采用存储与计算分离的架构。Apache Pulsar 目前在腾讯云内部已经成功支持大量数据和流量业务场景,本议题将分享腾讯云在 Apache Pulsar 百万量级 Topic 下最佳实践以及运维经验。
分享嘉宾:冉小龙,2020 年加入腾讯,现负责腾讯云 TDMQ 的建设,致力于打造稳定、高效、可扩展的底层基础组件和服务。
2021-08-08 15:30
Apache Pulsar 的 RBAC 授权
议题简介:RBAC(Role-based access control) 是一种基于单个用户的角色来控制系统访问的方法。RBAC 使用用户和角色之间的映射关系以及每个角色对应的权限,来决定每个用户是否可以对某些资源进行操作。 Apache Pulsar 使用 Casbin 来实现 RBAC 授权方法。通过启用 RBAC 授权方法,你可以管理用户属于哪个角色,以及该角色对某一资源有哪些权限。 本演讲主要介绍 Apache Pulsar 中的 RBAC 授权。我将说明基本的 RBAC 概念和 Casbin 的原理,介绍如何使用 Casbin Provider 为 Pulsar 启用 RBAC 授权,如何在 Pulsar 中使用 RBAC 设置和管理权限,以及如何在 Pulsar 中使用 Zookeeper Adapter 进行 RBAC。
分享嘉宾:杨子棵,在 StreamNative 担任软件工程师。他从 2020 年开始参与 Pulsar 社区的工作。
2021-08-08 16:10
Apache Pulsar 在华为云物联网平台之旅
议题简介:华为云物联网平台是当前中国第一个具有竞争力的 IoT 平台,目前管理着超过 3 亿台设备。本演讲将介绍:
为什么华为云物联网将消息队列从 Kafka 改为 Pulsar?
华为云物联网如何使用 Pulsar,以及在使用过程中遇到的相关问题和对应的解决方案。
分享嘉宾:贺张俭,2017 年毕业于西安电子科技大学,2017 年至今就职于华为公司物联网部门。
报名 ApacheCon Asia 2021
目前 ApacheCon Asia 2021 活动已开放报名,可点击「链接:http://hdxu.cn/Q7LkI 」报名哟!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。