金山云团队分享 | 5000字读懂Presto如何与Alluxio搭配

2022-06-23
阅读 7 分钟
1.1k
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。
封面图

什么是一致性哈希?可以应用在哪些场景?

2022-06-22
阅读 4 分钟
1k
将Alluxio与Presto结合运行在社区中越来越流行,使用固态硬盘或内存来缓存热数据集,能够实现近Presto worker的数据本地行,从而避免了远程读取数据导致的高延迟。Presto支持基于哈希的软亲和调度(soft affinity scheduling),这样整个集群中相同数据只缓存一、两个副本,更多的热数据能被缓存到本地,提高缓存效率。...
封面图

技能速成!教你10分钟内在电脑上配置运行Hive Metastore和Presto

2022-06-17
阅读 4 分钟
1.3k
To 初学者:本教程将指导初学者在本地服务器上通过搭建Presto和Hive Metastore来查询S3上的数据。Presto是用于计划和执行查询的SQL引擎,S3为表分区文件提供存储服务,而Hive Metastore是为Presto访问表模式和位置信息提供catalog服务。本教程将展示如何一步一步安装并配置Presto和Hive MetaStore,从而查询存储在公有S3...
封面图

招聘 | 上班轰趴,下班狼人杀,天天招人,怕是要发!

2022-06-10
阅读 2 分钟
1.2k
如果你还在犹豫不决,为选择哪个Offer而苦恼,亦或是等待一个上岸的机会,别担心,这些烦恼从来都不孤单,我们安排了岗位导师,与你分享他们对岗位的认识
封面图

Meta公司新探索 | 利用Alluxio数据缓存降低Presto延迟

2022-06-10
阅读 5 分钟
1.1k
Meta公司(前“Facebook公司”,下文统称“Meta”)的Presto团队一直在与Alluxio 合作为Presto提供开源数据缓存方案。该方案被用于Meta的多个用例,来降低从诸如HDFS等远端数据源扫描数据产生的查询延迟。实验证明,使用Alluxio数据缓存后,查询延迟和IO扫描都得到了显著优化。
封面图

导师男团来袭 | 开源之夏 2022,与 Alluxio 一起探索数据编排的奇妙世界

2022-05-13
阅读 3 分钟
1.2k
开源之夏(英文简称 OSPP)是由“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,今年是第三届,由中国科学院软件研究所与 openEuler 社区共同举办,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。
封面图

Alluxio 2.8版本重磅发布!3大提升抢先打开数据新世界

2022-05-06
阅读 2 分钟
979
2.8版本增强了对AWS S3 REST API的接口支持;增加了数据安全功能,对需要满足合规性和监管要求的敏感应用数据实现加密;提升了异构存储系统之间的自动数据迁移功能,用户无需手动迁移或拷贝数据。
封面图

揭秘Presto+Alluxio 的N个核心"黑魔法"

2022-02-18
阅读 7 分钟
1.3k
其实它就是能查询大量、海量数据的一个SQL数据库,SQL数据库大家已经见了很多了,MySQL、oracle这些都是SQL数据库。很多人可能也有体会,SQL是个很方便的查询数据的语言。那为什么要有Presto呢?首先如果你使用MySQL,oracle的话,你会发现它查一些小规模的数据,如果可以很容易命中的话,它是很快的。但如果说你要查海量...

Alluxio+WeRide|加速L4级自动驾驶技术开发进程

2022-02-18
阅读 3 分钟
851
开源云数据编排软件开发商Alluxio近日宣布,全球领先的L4级自动驾驶技术智能出行公司文远知行WeRide已将Alluxio数据编排软件作为混合云存储网关,用于本地应用程序对AWS S3等公共云存储的访问。这一新的数据架构为每个位置都提供了本地化缓存,消除了对S3的冗余请求。除了解决手动数据同步的复杂性问题之外,Alluxio还直...

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践(下)

2022-02-18
阅读 4 分钟
1.1k
Fluid + Alluxio 为集群引入了全新的架构,但是在具体场景适配方面我们还是遇到了一些问题,这些问题我们第一时间与社区反馈,社区都第一时间解决了我们的需求,这里主要讲下几个比较重要的特性支持:hostpath 与 nonroot 的支持

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践(上)

2022-02-18
阅读 4 分钟
1.1k
云知声,是一家专注物联网人工智能服务公司。云知声的 AI 技术栈涵盖了信号、语音、图像、文本的感知和表达能力,知识、理解、分析、决策等认知技术,并朝着多模态人工智能系统方向发展。云知声 Atlas 超算平台作为底层基础架构,支持着公司在 AI 各个领域的模型训练与推理服务的开展。云知声很早就开始布局建设业界领先...

Alluxio+NVIDIA GPUs : 加速分析和人工智能

2022-02-18
阅读 6 分钟
1.7k
越来越多的数据处理使用NVIDIA 计算来实现大规模并行。加速计算的发展意味着无论是在分析、人工智能 (AI) 还是机器学习 (ML) 过程中,对存储的访问也需要更快。

新生代工程师手把手教你玩转Alluxio+ML(下篇)

2022-02-18
阅读 7 分钟
1.4k
上篇中提到了很多Alluxio为了加速读取数据做的各种各样的优化,那么对于用户来说还有一个非常重要的问题——在机器学习训练中使用Alluxio读数据到底有多快?

新生代工程师手把手教你玩转Alluxio+ML(上篇)

2022-02-17
阅读 7 分钟
950
相信很多人都非常熟悉, Alluxio是可以对各种不同的数据源,包括阿里云、腾讯云的数据进行缓存,以提升各种训练的性能,它上面包括了像PyTorch, Tensorflow等一系列训练的软件。而Alluxio与很多的缓存解决方案的不同点就在于我们其实是一个分布式缓存,数据如果在一台机子上放不下,我们把它分到多台机子上,共同为大家提...

2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

2022-02-17
阅读 3 分钟
925
“Alluxio 2.7版本进一步巩固了Alluxio在云上人工智能(AI)、机器学习和深度学习方面的重要地位,”Alluxio创始人兼首席执行官李浩源表示。“随着数据集的增长以及CPU和GPU计算能力的增强,机器学习和深度学习已成为AI主流技术。这些技术的兴起推动了AI的发展,但也凸显了数据和存储系统访问中存在的一些挑战。”

【Alluxio&大厂】原来BOSS直聘是这样应用的

2022-02-17
阅读 7 分钟
1.2k
Hello大家好,我是来自BOSS直聘的基础架构工程师周佩洁。主要负责BOSS直聘算法平台的数据流链路的架构和设计。下面由我介绍Alluxio+Fluid在BOSS直聘算法平台的落地实践,我们本期的分享主要分为以下几个内容:

Meta(Facebook): 基于Alluxio Shadow Cache优化Presto架构决策

2022-02-17
阅读 6 分钟
1.3k
Facebook Presto是一个以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询、聚合、JOIN以及窗口函数等。

Uber实战案例:基于Alluxio实现Presto缓存

2022-02-17
阅读 7 分钟
1.7k
如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来确定价格。此外,Presto也在Uber的合规部、增长营销部门、ad-hoc数据分析等场景下使用。上图展示了Uber内部的一些重要数...

架构创新丨《Presto+Alluxio 概览》白皮书发布

2022-02-17
阅读 1 分钟
1.5k
为了满足当下和未来的需求,很多公司不断升级数据平台并开发可扩展的解决方案。从现有的实践来看,虽然Presto具有处理海量数据的能力,但其在跨工作流的数据访问方面优化不足。因此,数据平台工程师还需要寻找其他的方案来解决数据冗余、易出错、性能缓慢、不稳定和高成本的问题。

【Alluxio&大型银行】科技赋能金融,兴业银行按下“大数据处理加速键”

2022-02-17
阅读 6 分钟
1.5k
关于银保监会对银行业,包括保险业在金融科技方面提出的一些要求。我们后续会有几方面的重点建设方向:第一个就是大力推进云化转型,包括云原生的转型和大数据云等一系列云化的转型,对于我们的要求也是越来越高。第二也是比较重要的,持续优化科技与业务融合,用数字化支持企业数字化转型,通过为业务赋能为业务展开提...

【Iceberg+Alluxio】助力加速数据通道(下篇)

2022-02-16
阅读 7 分钟
1.7k
可能很多人用Presto只用 Hive Connector,其实Iceberg connector跟Hive差不多,不管从实现,还是从功能上都有互相的参照,尤其是在实现方面使用了非常多的Hive connector底层的代码。它创建table也是一样,我们可以从一个 TPC-DS数据的 customer表里抽几列再创建一个table,你可以指定这个数据的格式,可以是Parquet也可...

【Iceberg+Alluxio】助力加速数据通道(上篇)

2022-02-16
阅读 8 分钟
2.7k
Alluxio是2014年在伯克利 AMPLab孵化的一个项目,那时候名叫Tachyon,是跟Spark同一期孵化的分布式存储项目。截止到今天为止,我们这个社区里已经有超过1000名的contributor参与搭建了社区代码和各种活动,在Slack committee里面已经有5000以上的 member进行互动,大家也把技术广泛应用在各种开源场景里面。在去年的时候...

Alluxio中的元数据同步:设计、实现和优化

2022-02-16
阅读 5 分钟
2.5k
元数据同步(metadata sync)是Alluxio的一个核心功能,它能使文件和目录与底层存储系统中的数据源保持一致,便于用户通过Alluxio获取最新数据。同时,了解内部进程对于性能调优也十分重要。本文介绍了Alluxio元数据同步功能的设计和实现。在Alluxio中,元数据是指Alluxio文件系统中的文件和目录信息,包括所有者、组、...

解决方案概览丨如何使用 Alluxio 进行机器学习模型训练

2022-02-16
阅读 5 分钟
1.8k
随着人工智能(AI)和机器学习(ML)的广泛应用以及在业务上的重要性不断增强,企业也在大力发展 AI/ML 的应用,这些应用要求数据平台满足以下要求:

甲子光年专访丨一家开源公司,要做大数据时代的“滴滴打车”

2022-02-16
阅读 4 分钟
983
在中国,大型科技企业加入开源阵营。阿里云发布全新操作系统“龙蜥”并宣布开源,蚂蚁金服开源OceanBase数据库,华为发布“开源雨林”计划。

Alluxio 与金山云达成合作,携手优化存算分离与湖仓一体架构

2022-02-16
阅读 2 分钟
1.6k
近日,全球首创的超大规模分布式数据编排软件开发商 Alluxio 与金山云达成合作,双方将共同探索数据编排技术在存算分离与湖仓一体等大数据应用趋势下的产品集成方案和实践场景,助力企业客户开展更为灵活及高效的大数据业务,以实现数据收益最大化。

Alluxio 2022 财年业务发展迅猛,全球市值前十企业有七家在使用 Alluxio

2022-02-11
阅读 2 分钟
1.1k
近日,全球首创的超大规模分布式数据编排软件开发商 Alluxio 宣布,其在刚刚过去的 2022 财年(2021年2月1日至2022年1月31日)业务发展势头迅猛,财年营收同比增长3倍,并获得战略头部客户认可,完成新一轮融资,开启全球业务拓展并加速产品迭代。全球市场趋势表明,随着企业转向混合云和多云的工作负载,对 Alluxio 数...
封面图

Alluxio 与阿里云正式达成技术合作

2022-02-11
阅读 2 分钟
1.2k
近日,开源云数据编排软件开发商 Alluxio 与阿里云达成技术合作,其核心产品 Alluxio 数据编排平台将与阿里云云原生数据仓库 AnalyticDB 集成,有效解决存储计算分离场景下从异构数据源读取数据带来的性能损耗。相较存储和计算耦合的架构,Alluxio 数据编排技术产品基于存储计算分离架构。存储计算分离可以带来诸多好处...
封面图