Facebook 正式开源其大数据查询引擎 Presto

Facebook 正式宣布开源 Presto —— 数据查询引擎，可对250PB以上的数据进行快速地交互式分析。该项目始于 2012 年秋季开始开发，目前该项目已经在超过 1000 名 Facebook 雇员中使用，运行超过 30000 个查询，每日数据在 1PB 级别。Facebook 称 Presto 的性能比诸如 Hive 和 Map*Reduce 要好上 10 倍有多。

Faebook的数据仓库存储在少量大型Hadoop/HDFS集群，随着数据量的飙升，Facebook需要一套交互性更好的数据查询系统。2012年开始试用一些外部项目都不合适，他们决定自己开发，这就是Presto。

Presto是一套分布式SQL引擎，支持P级数据交互查询。支持Ansi SQL查询，包括复杂查询，如包括联合查询、左右联接、子查询以及一些聚合和计算函数；including approximate distinct counts (using HyperLogLog) and approximate percentiles (based on quantile digest). The main restrictions at this stage are a size limitation on the join tables and cardinality of unique keys/groups. The system also lacks the ability to write output data back to tables (currently query results are streamed to the client).

Presto完全不同于Hive/MapReduce, Hive是把一条查询分解成多个MapReduce任务分步实行，每个任务都从磁盘上读取数据在把结果写回去。而Presto不用Mapreduce，而是用支持SQL查询的分析引擎，在内存中进行操作，以保证速度。

Presto使用Java开发，支持外部数据存储的扩展,。

请输入图片描述

2012年秋天Presto项目启动，2013年春天系统上线，现已成为Facebook数据仓库主要查询系统。现已部署超过1000个节点，有超过1000名员工使用，每天处理P级数据查询3万条。

Presto的数据查询速度比Hive／Mapreduce快10倍以上。

开源地址

http://prestodb.io/ https://github.com/facebook/presto

https://github.com/facebook/presto

Facebook技术博客文章原文

Facebook 正式开源其大数据查询引擎 Presto

Sunny

引用和评论

自动驾驶开源项目 Autoware 基金会成立背景

告别人工排程！一款私有化部署的智能排产系统（APS），已开源！

开源之夏经验分享｜Koupleless 社区魏照华：开源精神是场永不停歇的接力

开源之夏经验分享｜Layotto 社区郑浩宁：尝试，就会有收获！

2025年GitHub Star增长最快的15个开源低代码项目

开源智能APS系统核心排程技术解析与案例应用

字节跳动开源 Godel-Rescheduler：适用于云原生系统的全局最优重调度框架

Facebook 正式开源其大数据查询引擎 Presto

Sunny

引用和评论

自动驾驶开源项目 Autoware 基金会成立背景

告别人工排程！一款私有化部署的智能排产系统（APS），已开源！

开源之夏经验分享｜Koupleless 社区魏照华：开源精神是场永不停歇的接力

开源之夏经验分享｜Layotto 社区 郑浩宁：尝试，就会有收获！

2025年GitHub Star增长最快的15个开源低代码项目

开源智能APS系统核心排程技术解析与案例应用

字节跳动开源 Godel-Rescheduler：适用于云原生系统的全局最优重调度框架

开源之夏经验分享｜Layotto 社区郑浩宁：尝试，就会有收获！