InfoWorld文章丨将数据编排技术用于AI模型训练

2022-08-26
阅读 5 分钟
861
This article was originally published on InfoWorld on March 22, 2022.Reprinted with permission. IDG Communications, Inc., 2022. All rights reserved. Orchestrating data for machine learning pipelines.
封面图

Apache顶级项目Ranger和Alluxio的最佳实践(附教程)

2022-08-23
阅读 8 分钟
1.1k
Alluxio让计算引擎实现在任何云环境中的数据编排。Alluxio统一了本地和跨云环境下的数据孤岛,实现数据本地性、可访问性和弹性,从而降低大数据和人工智能/机器学习(AI/ML)工作负载的管理数据和访问数据的难度。
封面图

当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略

2022-08-19
阅读 8 分钟
666
本期分享主题:《Alluxio块分配策略详解》全文主要围绕3个部分进行介绍:【策略详解概述】、【块分配策略介绍】、【代码层面解读】话不多说,直接上干货↓
封面图

6W+字记录实验全过程 | 探索Alluxio经济化数据存储策略

2022-08-19
阅读 46 分钟
548
随着大数据应用的不断发展,数据仓库、数据湖的大数据实践层出不穷;无论是电信、金融、政府,各个行业的大数据热潮蓬勃发展。在过去的4-5年中,我们不断看到企业用户大数据膨胀问题日益加剧,大数据创新下数据存储成本呈现线性增长,使得企业对于大数据的应用开始变得谨慎、变向放缓了企业内部数据化转型的速度。
封面图

使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务

2022-08-19
阅读 3 分钟
609
美国艺电 (EA) 是游戏行业的翘楚,每年为全球几十亿用户提供数十款游戏。能否针对EA的在线服务做出近实时决策对于业务发展至关重要。本文介绍了在AWS上搭建的基于Presto和Alluxio的数据平台,如何为游戏产业提供即时响应的在线服务。
封面图

2min速览:从设计、实现和优化角度浅谈Alluxio元数据同步

2022-08-18
阅读 13 分钟
742
内容速览:本期分享的题目是Alluxio元数据和数据的同步,从设计实现和优化的角度进行讨论,包括以下6个方面内容:01. Alluxio简介Alluxio是云原生的数据编排平台,通过解耦计算和存储层,在中间产生了一个数据编排层,负责对上层计算应用隐藏底层的时间细节。02. Alluxio的数据挂载挂载操作有一个进阶版操作,所做的事情...
封面图

华能 + Alluxio | 数字化浪潮下跨地域数据联邦访问与分析

2022-08-15
阅读 11 分钟
850
为了响应国家“十四五”数字经济发展规划的号召,中国企业推动创新资源共建共享,促进创新模式开放化演进,在信息化、数字化、智能化的强烈需求下,中国龙头企业统筹全渠道的技术能力,逐渐形成了一套覆盖集团业务发展、经营管理等核心发展战略需要的战略方向。
封面图

Alluxio为Presto赋能跨云的自助服务能力

2022-07-29
阅读 2 分钟
529
作者介绍范斌 Alluxio VP Open Source and Founding MemberAdit Madan Alluxio Senior Product ManagerJasmine Wang Alluxio Community Manager
封面图

Meta项目功能测试 | 开启PrestoDB和Aria扫描优化

2022-07-15
阅读 6 分钟
798
PrestoDB的Aria项目曾于2020年发布过一组实验性功能,用来提高对表(通过Hive连接器连接并以ORC格式存储数据)的扫描性能。在本文中,我们将在基于Docker的PrestoDB测试环境中对这些新功能进行基础性的测试。[1]
封面图

腾讯大咖分享 | 腾讯Alluxio(DOP)在金融场景的落地与优化实践

2022-07-15
阅读 9 分钟
836
近期,腾讯 Alluxio 团队与 CDG 金融数据团队、TEG supersql 团队、konajdk 团队进行通力协作,解决了金融场景落地腾讯 Alluxio(DOP=Data Orchestration Platform 数据编排平台) 过程中遇到的各种问题,最终达到了性能和稳定性都大幅提升的效果。
封面图

【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台 Alluxio

2022-06-30
阅读 2 分钟
964
这30场分享中,我们每1期都会精心规划、定向邀请嘉宾,其中有来自一线大厂的实战者,有来自Alluxio的嘉宾。内容涵盖【金融】【互联网&科技】【电信】【电商】【出行】【人工智能】等热门行业。
封面图

金山云团队分享 | 5000字读懂Presto如何与Alluxio搭配

2022-06-23
阅读 7 分钟
951
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。
封面图

什么是一致性哈希?可以应用在哪些场景?

2022-06-22
阅读 4 分钟
681
将Alluxio与Presto结合运行在社区中越来越流行,使用固态硬盘或内存来缓存热数据集,能够实现近Presto worker的数据本地行,从而避免了远程读取数据导致的高延迟。Presto支持基于哈希的软亲和调度(soft affinity scheduling),这样整个集群中相同数据只缓存一、两个副本,更多的热数据能被缓存到本地,提高缓存效率。...
封面图

技能速成!教你10分钟内在电脑上配置运行Hive Metastore和Presto

2022-06-17
阅读 4 分钟
1.1k
To 初学者:本教程将指导初学者在本地服务器上通过搭建Presto和Hive Metastore来查询S3上的数据。Presto是用于计划和执行查询的SQL引擎,S3为表分区文件提供存储服务,而Hive Metastore是为Presto访问表模式和位置信息提供catalog服务。本教程将展示如何一步一步安装并配置Presto和Hive MetaStore,从而查询存储在公有S3...
封面图

招聘 | 上班轰趴,下班狼人杀,天天招人,怕是要发!

2022-06-10
阅读 2 分钟
944
如果你还在犹豫不决,为选择哪个Offer而苦恼,亦或是等待一个上岸的机会,别担心,这些烦恼从来都不孤单,我们安排了岗位导师,与你分享他们对岗位的认识
封面图

Meta公司新探索 | 利用Alluxio数据缓存降低Presto延迟

2022-06-10
阅读 5 分钟
852
Meta公司(前“Facebook公司”,下文统称“Meta”)的Presto团队一直在与Alluxio 合作为Presto提供开源数据缓存方案。该方案被用于Meta的多个用例,来降低从诸如HDFS等远端数据源扫描数据产生的查询延迟。实验证明,使用Alluxio数据缓存后,查询延迟和IO扫描都得到了显著优化。
封面图

导师男团来袭 | 开源之夏 2022,与 Alluxio 一起探索数据编排的奇妙世界

2022-05-13
阅读 3 分钟
1k
开源之夏(英文简称 OSPP)是由“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,今年是第三届,由中国科学院软件研究所与 openEuler 社区共同举办,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。
封面图

Alluxio 2.8版本重磅发布!3大提升抢先打开数据新世界

2022-05-06
阅读 2 分钟
805
2.8版本增强了对AWS S3 REST API的接口支持;增加了数据安全功能,对需要满足合规性和监管要求的敏感应用数据实现加密;提升了异构存储系统之间的自动数据迁移功能,用户无需手动迁移或拷贝数据。
封面图

揭秘Presto+Alluxio 的N个核心"黑魔法"

2022-02-18
阅读 7 分钟
1k
其实它就是能查询大量、海量数据的一个SQL数据库,SQL数据库大家已经见了很多了,MySQL、oracle这些都是SQL数据库。很多人可能也有体会,SQL是个很方便的查询数据的语言。那为什么要有Presto呢?首先如果你使用MySQL,oracle的话,你会发现它查一些小规模的数据,如果可以很容易命中的话,它是很快的。但如果说你要查海量...

Alluxio+WeRide|加速L4级自动驾驶技术开发进程

2022-02-18
阅读 3 分钟
712
开源云数据编排软件开发商Alluxio近日宣布,全球领先的L4级自动驾驶技术智能出行公司文远知行WeRide已将Alluxio数据编排软件作为混合云存储网关,用于本地应用程序对AWS S3等公共云存储的访问。这一新的数据架构为每个位置都提供了本地化缓存,消除了对S3的冗余请求。除了解决手动数据同步的复杂性问题之外,Alluxio还直...

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践(下)

2022-02-18
阅读 4 分钟
822
Fluid + Alluxio 为集群引入了全新的架构,但是在具体场景适配方面我们还是遇到了一些问题,这些问题我们第一时间与社区反馈,社区都第一时间解决了我们的需求,这里主要讲下几个比较重要的特性支持:hostpath 与 nonroot 的支持

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践(上)

2022-02-18
阅读 4 分钟
864
云知声,是一家专注物联网人工智能服务公司。云知声的 AI 技术栈涵盖了信号、语音、图像、文本的感知和表达能力,知识、理解、分析、决策等认知技术,并朝着多模态人工智能系统方向发展。云知声 Atlas 超算平台作为底层基础架构,支持着公司在 AI 各个领域的模型训练与推理服务的开展。云知声很早就开始布局建设业界领先...

Alluxio+NVIDIA GPUs : 加速分析和人工智能

2022-02-18
阅读 6 分钟
1.3k
越来越多的数据处理使用NVIDIA 计算来实现大规模并行。加速计算的发展意味着无论是在分析、人工智能 (AI) 还是机器学习 (ML) 过程中,对存储的访问也需要更快。

新生代工程师手把手教你玩转Alluxio+ML(下篇)

2022-02-18
阅读 7 分钟
1.1k
上篇中提到了很多Alluxio为了加速读取数据做的各种各样的优化,那么对于用户来说还有一个非常重要的问题——在机器学习训练中使用Alluxio读数据到底有多快?

新生代工程师手把手教你玩转Alluxio+ML(上篇)

2022-02-17
阅读 7 分钟
780
相信很多人都非常熟悉, Alluxio是可以对各种不同的数据源,包括阿里云、腾讯云的数据进行缓存,以提升各种训练的性能,它上面包括了像PyTorch, Tensorflow等一系列训练的软件。而Alluxio与很多的缓存解决方案的不同点就在于我们其实是一个分布式缓存,数据如果在一台机子上放不下,我们把它分到多台机子上,共同为大家提...

2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

2022-02-17
阅读 3 分钟
798
“Alluxio 2.7版本进一步巩固了Alluxio在云上人工智能(AI)、机器学习和深度学习方面的重要地位,”Alluxio创始人兼首席执行官李浩源表示。“随着数据集的增长以及CPU和GPU计算能力的增强,机器学习和深度学习已成为AI主流技术。这些技术的兴起推动了AI的发展,但也凸显了数据和存储系统访问中存在的一些挑战。”

【Alluxio&大厂】原来BOSS直聘是这样应用的

2022-02-17
阅读 7 分钟
1k
Hello大家好,我是来自BOSS直聘的基础架构工程师周佩洁。主要负责BOSS直聘算法平台的数据流链路的架构和设计。下面由我介绍Alluxio+Fluid在BOSS直聘算法平台的落地实践,我们本期的分享主要分为以下几个内容:

Meta(Facebook): 基于Alluxio Shadow Cache优化Presto架构决策

2022-02-17
阅读 6 分钟
1.1k
Facebook Presto是一个以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询、聚合、JOIN以及窗口函数等。

Uber实战案例:基于Alluxio实现Presto缓存

2022-02-17
阅读 7 分钟
1.5k
如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来确定价格。此外,Presto也在Uber的合规部、增长营销部门、ad-hoc数据分析等场景下使用。上图展示了Uber内部的一些重要数...

架构创新丨《Presto+Alluxio 概览》白皮书发布

2022-02-17
阅读 1 分钟
1.2k
为了满足当下和未来的需求,很多公司不断升级数据平台并开发可扩展的解决方案。从现有的实践来看,虽然Presto具有处理海量数据的能力,但其在跨工作流的数据访问方面优化不足。因此,数据平台工程师还需要寻找其他的方案来解决数据冗余、易出错、性能缓慢、不稳定和高成本的问题。