Alluxio - SegmentFault 思否

2023年五大趋势预测 | 大数据分析、人工智能和云产业展望

2023-01-19

阅读 3 分钟

948

随着我们迈入2023年，大数据分析、人工智能和云产业将迎来蓬勃的创新和发展阶段以下是我们预测的，将对行业格局产生重大影响的五大趋势：世界在剧变，我们需要尽快寻找行业中的方向，迅速重回轨道2023年，全球经济层面的不确定性将持续存在。在云上部署数据密集型负载的企业需重新评估其云战略，更加关注成本优化，根据...

从“少林寺”毕业后，我当上了开源社区“区长”

2023-01-04

阅读 3 分钟

927

本期名人堂我们有幸邀请到了Alluxio创始成员兼开源社区副总裁范斌先生。范斌先生讲述了自己的求学、工作、加入开源社区的经历，以及对未来十年数据编排发展的展望，和对开发贡献者的一些建议。

封面图

如何用Alluxio加速云上深度学习训练？

2022-12-29

阅读 6 分钟

928

随着企业数据量的不断增加，为了提高深度学习训练的准确性、加快速度并且降低成本，许多企业开始逐步在云上实施分布式训练的方案，本期内容将结合阿里、微软等实际应用案例，分享如何通过Alluxio加速云上深度学习。

封面图

【蚂蚁】Alluxio在蚂蚁集团大规模训练中的应用

2022-12-28

阅读 7 分钟

1.5k

本期内容我们邀请到了来自蚂蚁集团的开发工程师陈传迎老师，给大家分享Alluxio在蚂蚁集团是如何支持大规模模型训练的。首先是关于引入Alluxio的背景：为什么要引入Alluxio？Alluxio到底解决了什么问题？带着这些问题，我们快速get陈老师分享的核心内容：第一部分：稳定性建设稳定性建设主要从两块进行：worker register ...

封面图

从博士论文到被各大厂应用，Alluxio 如何走过 7 年创业路

2022-12-06

阅读 3 分钟

1.2k

今年 2 月，Alluxio 宣布以实现收入同比增长 3 倍的成绩结束了 2022 财年。“这个财年的业绩进一步表明了市场需要更好的方法来访问大规模分析和 AI/ML 应用程序中的数据，尤其是在分布式混合云和多云环境中。”Alluxio 创始人兼 CEO 李浩源表示。

封面图

Alluxio 2.9新版发布 | 重塑架构，支持大规模多租户环境

2022-11-18

阅读 2 分钟

723

Alluxio 2.9 版本的主要新增功能包括：新增跨环境集群同步功能、增强Alluxio在Kubernetes上的可管理性、提高S3 API 安全性和用户体验。

封面图

大咖分享 | 如何构建 Alluxio 审计日志分析系统

2022-11-10

阅读 7 分钟

1.2k

大数据技术日新月异，数据湖、数据中台、逻辑数据湖、数据编织、数据编排等数据建设理念不断出现、深化，究其根本依然是如何能够将数据规整起来，以统一的规范对数据的脉络进行梳理，形成统一的视图、统一的标准，实现业务层面的数据治理目标。

封面图

Alluxio 源码完整解析 | 你不知道的开源数据编排系统（下篇）

2022-10-26

阅读 16 分钟

1.3k

本篇将在上篇的基础上，继续为大家讲述Alluxio中重点类详解，Alluxio中Block底层读写流程，Alluxio Client调用流程和 Alluxio内置的轻量级调度框架。

封面图

Alluxio 源码完整解析 | 你不知道的开源数据编排系统（上篇）

2022-10-26

阅读 9 分钟

1.5k

目前数据湖已成为大数据领域的最新热门话题之一，而什么是数据湖，每家数据平台和云厂商都有自己的解读。整体来看，数据湖主要的能力优势是：集中式存储原始的、海量的、多来源的、多类型的数据，支持数据的快速加工及计算。相比于传统的数据仓库，数据湖对数据有更大的包容性，支持结构化/半结构化/非结构化数据，能快...

封面图

一站式全覆盖数据 I/O 平台 - Alluxio 与 Aunalytics 的完美结合

2022-10-26

阅读 2 分钟

1k

“Aunalytics云原生数据分析平台与Alluxio 的开源数据编排软件相结合，使客户能够进行跨所有数据源的统一访问，并驱动人工智能分析，产出更好的答案，获得竞争优势。”Aunalytics分析云首席技术官汤姆·帕诺佐

封面图

技术分享 | Presto性能对比测试：Kubernetes部署 VS 物理机部署

2022-10-11

阅读 7 分钟

1.7k

Presto是开源分布式SQL查询引擎，可以对从GB到PB级大小的数据源进行交互式分析查询。Presto支持Hive、Cassandra、关系型数据库甚至专有数据存储等多种数据源，允许跨源查询。（详见参考[1] ）

封面图

Alluxio与北京大学计算机学院签署合作框架协议，推动产学研深度融合

2022-09-30

阅读 2 分钟

1.2k

此次Alluxio与北京大学计算机学院达成合作框架协议，双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作，并将成立“云原生数据编排服务系统联合实验室”。

封面图

Presto on Alluxio By Alluxio SDS 单节点搭建

2022-09-27

阅读 6 分钟

1.1k

急性子，想直接实操的，先绕过这个章节，直接看后边的实操步骤。把环境运行起来再看原理。Presto 的架构如下图所示，client 的请求，会递交给 Coordinator 进行处理，而元数据信息由 HiveMetaStore(HMS) 进行管理。那么表或分区的 location 信息，也在 HMS 中存放，因此，如果想把表或分区的数据放到其它存储系统里，则...

封面图

Alluxio Local Cache 监控指南 Alluxio Alluxio

2022-09-27

阅读 3 分钟

1.1k

随着云计算在基础设施领域的市场份额持续上升，主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施，并以此为云提供商降低成本。但是，存储计算分离也为查询延迟带来了新的挑战，因为当网络饱和时，通过网络扫描大量数据将受到 IO 限制。此外，元数据也面临远程网络来检索的性能问题。

封面图

技能速成！教你10分钟内在电脑上配置运行Hive Metastore和Presto

2022-09-27

阅读 4 分钟

1.2k

本教程将指导初学者在本地服务器上通过搭建Presto和Hive Metastore来查询S3上的数据。Presto是用于计划和执行查询的SQL引擎，S3为表分区文件提供存储服务，而Hive Metastore是为Presto访问表模式和位置信息提供catalog服务。本教程将展示如何一步一步安装并配置Presto和Hive MetaStore，从而查询存储在公有S3 bucket中的...

封面图

帮助 Meta 解决 Presto 中的数据孤岛问题

2022-09-27

阅读 6 分钟

885

Raptor 是用来支持 Meta（以前的 Facebook）中的一些关键交互式查询工作负载的 Presto 连接器（presto-raptor）。尽管 ICDE 2019 的论文 Presto：SQL on Everything（[链接]）中提到过这一特性，但它对于许多 Presto 用户来说仍然有些神秘，因为目前还没有关于此特性的可用文档。本文将介绍 Raptor 的历史，以及为什么 M...

封面图

Meta公司内部项目-RaptorX：将Presto性能提升10倍

2022-09-13

阅读 6 分钟

1.4k

RaptorX是Meta（前“Facebook公司”，下文统称“Meta”）公司的一个内部项目名称，目的是为了降低查询延迟，让Presto的查询性能大大超越原生（vanilla） Presto，这篇文章介绍了RaptorX的关键模块——分层缓存。

封面图

【联通】数据编排技术在联通的应用

2022-09-13

阅读 11 分钟

1.1k

欢迎来到【微直播间】，2min纵览大咖观点，本期分享的题目是数据编排技术在联通的应用。本次分享内容将围绕四个方面讲述Alluxio数据编排技术在联通的应用，主要围绕缓存加速、存算分离、混合负载以及轻量级分析四个不同的使用场景进行分享：

封面图

什么是数据编排

2022-08-26

阅读 1 分钟

1.2k

[链接]

InfoWorld文章丨将数据编排技术用于AI模型训练

2022-08-26

阅读 5 分钟

1.2k

This article was originally published on InfoWorld on March 22, 2022.Reprinted with permission. IDG Communications, Inc., 2022. All rights reserved. Orchestrating data for machine learning pipelines.

封面图

Apache顶级项目Ranger和Alluxio的最佳实践（附教程）

2022-08-23

阅读 8 分钟

1.6k

Alluxio让计算引擎实现在任何云环境中的数据编排。Alluxio统一了本地和跨云环境下的数据孤岛，实现数据本地性、可访问性和弹性，从而降低大数据和人工智能/机器学习（AI/ML）工作负载的管理数据和访问数据的难度。

封面图

当内卷风波及代码领域，看Alluxio将会采取怎样的块分配策略

2022-08-19

阅读 8 分钟

915

本期分享主题：《Alluxio块分配策略详解》全文主要围绕3个部分进行介绍：【策略详解概述】、【块分配策略介绍】、【代码层面解读】话不多说，直接上干货↓

封面图

6W+字记录实验全过程 | 探索Alluxio经济化数据存储策略

2022-08-19

阅读 46 分钟

833

随着大数据应用的不断发展，数据仓库、数据湖的大数据实践层出不穷；无论是电信、金融、政府，各个行业的大数据热潮蓬勃发展。在过去的4-5年中，我们不断看到企业用户大数据膨胀问题日益加剧，大数据创新下数据存储成本呈现线性增长，使得企业对于大数据的应用开始变得谨慎、变向放缓了企业内部数据化转型的速度。

封面图

使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务

2022-08-19

阅读 3 分钟

860

美国艺电 (EA) 是游戏行业的翘楚，每年为全球几十亿用户提供数十款游戏。能否针对EA的在线服务做出近实时决策对于业务发展至关重要。本文介绍了在AWS上搭建的基于Presto和Alluxio的数据平台，如何为游戏产业提供即时响应的在线服务。

封面图

2min速览：从设计、实现和优化角度浅谈Alluxio元数据同步

2022-08-18

阅读 13 分钟

1.2k

内容速览：本期分享的题目是Alluxio元数据和数据的同步，从设计实现和优化的角度进行讨论，包括以下6个方面内容：01. Alluxio简介Alluxio是云原生的数据编排平台，通过解耦计算和存储层，在中间产生了一个数据编排层，负责对上层计算应用隐藏底层的时间细节。02. Alluxio的数据挂载挂载操作有一个进阶版操作，所做的事情...

封面图

华能 + Alluxio | 数字化浪潮下跨地域数据联邦访问与分析

2022-08-15

阅读 11 分钟

1.2k

为了响应国家“十四五”数字经济发展规划的号召，中国企业推动创新资源共建共享，促进创新模式开放化演进，在信息化、数字化、智能化的强烈需求下，中国龙头企业统筹全渠道的技术能力，逐渐形成了一套覆盖集团业务发展、经营管理等核心发展战略需要的战略方向。

封面图

Alluxio为Presto赋能跨云的自助服务能力

2022-07-29

阅读 2 分钟

777

作者介绍范斌 Alluxio VP Open Source and Founding MemberAdit Madan Alluxio Senior Product ManagerJasmine Wang Alluxio Community Manager

封面图

Meta项目功能测试 | 开启PrestoDB和Aria扫描优化

2022-07-15

阅读 6 分钟

1.1k

PrestoDB的Aria项目曾于2020年发布过一组实验性功能，用来提高对表（通过Hive连接器连接并以ORC格式存储数据）的扫描性能。在本文中，我们将在基于Docker的PrestoDB测试环境中对这些新功能进行基础性的测试。[1]

封面图

腾讯大咖分享 | 腾讯Alluxio(DOP)在金融场景的落地与优化实践

2022-07-15

阅读 9 分钟

1.2k

近期，腾讯 Alluxio 团队与 CDG 金融数据团队、TEG supersql 团队、konajdk 团队进行通力协作，解决了金融场景落地腾讯 Alluxio(DOP=Data Orchestration Platform 数据编排平台) 过程中遇到的各种问题，最终达到了性能和稳定性都大幅提升的效果。

封面图

【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台 Alluxio

2022-06-30

阅读 2 分钟

1.3k

这30场分享中，我们每1期都会精心规划、定向邀请嘉宾，其中有来自一线大厂的实战者，有来自Alluxio的嘉宾。内容涵盖【金融】【互联网&科技】【电信】【电商】【出行】【人工智能】等热门行业。

封面图

2

2