Replication(上):常见复制模型&分布式系统挑战

2022-09-01
阅读 14 分钟
967
分布式系统设计是一项十分复杂且具有挑战性的事情。其中,数据复制与一致性更是其中十分重要的一环。数据复制领域概念庞杂、理论性强,如果对应的算法没有理论验证大概率会出错。如果在设计过程中,不了解对应理论所解决的问题以及不同理论之间的联系,势必无法设计出一个合理的分布式系统。
封面图

Replication(下):事务,一致性与共识

2022-09-01
阅读 19 分钟
2k
本文主要介绍事务、一致性以及共识,首先会介绍它们怎么在分布式系统中起作用,然后将尝试描述它们之间的内在联系,让大家了解,在设计分布式系统时也是有一定的“套路”可寻。最后将介绍业界验证分布式算法的一些工具和框架。希望能够对大家有所帮助或者启发。
封面图

数据治理一体化实践之体系化建模

2022-03-02
阅读 8 分钟
1.2k
数字经济的快速发展,给企业的经营带来了新的机遇和挑战,如何有效开展数据治理,打破数据孤岛,充分发挥数据的业务价值,保护数据安全,已成为业界的热门话题。本文基于美团配送数据治理的历程,分享了数据定义、模型设计、数据生产三环节统一的配送数据“底座”的建设与实践。
封面图

基于SSD的Kafka应用层缓存架构设计与实现

2021-01-17
阅读 8 分钟
1.5k
目前在美团数据平台中,Kafka承担着数据缓冲和分发的角色。如下图所示,业务日志、接入层Nginx日志或线上DB数据通过数据采集层发送到Kafka,后续数据被用户的实时作业消费、计算,或经过数仓的ODS层用作数仓生产,还有一部分则会进入公司统一日志中心,帮助工程师排查线上问题。
封面图

喜讯!美团-清华大数据课程对外开放啦!

2020-10-01
阅读 2 分钟
2.5k
经过一年的沉淀和打磨,美团技术团队与清华大学电子系合作开设的研究生学分课程——《大数据技术的商业应用与实践》第二次登陆清华大学,于9月24日正式开课。

美团配送数据治理实践

2020-03-13
阅读 11 分钟
1.8k
大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。

Hadoop YARN:调度性能优化实践

2019-08-05
阅读 10 分钟
3.5k
背景 YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。 美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。 离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作业。 实时业务主要运行Spark Streaming,Flink为主的实时流计算...