阿里云栖号 - SegmentFault 思否

数据湖揭秘—Delta Lake

2022-05-13

阅读 4 分钟

简介：Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark，Flink，Hive，PrestoDB，Trino 等查询/计算引擎。作为一个开放格式的存储层，它在提供了批流一体的同时，为湖仓架构提供可靠的，安全的，高性能的保证。

HMS数据库设置和优化

阿里云云栖号

2021-12-13

阅读 5 分钟

简介：Hive Metastore (HMS) 是一种服务，用于在后端 RDBMS（例如 MySQL 或 PostgreSQL）中存储与 Apache Hive 和其他服务相关的元数据。本文主要分享HMS数据库设置和优化

云原生大数据架构中实时计算维表和结果表的选型实践

阿里云云栖号

2021-09-16

阅读 12 分钟

传统的大数据技术起源于 Google 三架马车 GFS、MapReduce、Bigtable，以及其衍生的开源分布式文件系统 HDFS，分布式计算引擎 MapReduce，以及分布式数据库 HBase。最初的大数据技术与需求往往集中在超大规模数据存储、数据处理、在线查询等。在这个阶段，很多公司会选择自建机房部署 Hadoop 的方式，大数据技术与需求集...

SmartNews：基于 Flink 加速 Hive 日表生产的实践

阿里云云栖号

2021-08-20

阅读 5 分钟

本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产，将 Flink 无缝地集成到以 Airflow 和 Hive 为主的批处理系统的实践。详细介绍过程中遇到的技术挑战和应对方案，以供社区分享。主要内容为：

汽车之家：基于 Flink + Iceberg 的湖仓一体架构实践

阿里云云栖号

2021-06-10

阅读 6 分钟

简介：由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的，基于 Flink + Iceberg 的湖仓一体架构实践。

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

阿里云云栖号

2020-01-09

阅读 6 分钟

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

阿里云云栖号

2019-12-24

阅读 7 分钟

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里，用户和产品都得到了增长，使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台（Apache Hive 是 Facebook 在2009年贡献给社区的）和 Corona（ Facebook 内部的 MapReduce 实现）进行的。Facebook 还针对包括 Hive 在...