数据湖揭秘—Delta Lake

2022-05-13
阅读 4 分钟
简介:Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
封面图

HMS数据库设置和优化

2021-12-13
阅读 5 分钟
简介:Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。本文主要分享HMS数据库设置和优化
封面图

云原生大数据架构中实时计算维表和结果表的选型实践

2021-09-16
阅读 12 分钟
传统的大数据技术起源于 Google 三架马车 GFS、MapReduce、Bigtable,以及其衍生的开源分布式文件系统 HDFS,分布式计算引擎 MapReduce,以及分布式数据库 HBase。最初的大数据技术与需求往往集中在超大规模数据存储、数据处理、在线查询等。在这个阶段,很多公司会选择自建机房部署 Hadoop 的方式,大数据技术与需求集...
封面图

SmartNews:基于 Flink 加速 Hive 日表生产的实践

2021-08-20
阅读 5 分钟
本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产,将 Flink 无缝地集成到以 Airflow 和 Hive 为主的批处理系统的实践。详细介绍过程中遇到的技术挑战和应对方案,以供社区分享。主要内容为:
封面图

汽车之家:基于 Flink + Iceberg 的湖仓一体架构实践

2021-06-10
阅读 6 分钟
简介: 由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践。
封面图

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

2020-01-09
阅读 6 分钟
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

2019-12-24
阅读 7 分钟
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在...