阿里云出现大规模故障;2023 最佳发明榜单;愤怒的南瓜|思否技术圈周刊

2023-11-17
阅读 3 分钟
623
双十一刚结束,阿里云就大面积故障,持续长达 3 个半小时。据阿里云公告,故障源于某个底层服务组件,影响地域涵盖了国内以及海外多个国家。“淘宝崩了”、“外卖崩了”、“闲鱼崩了”等迅速冲上热搜。大批依赖阿里云的设施随之崩溃:外卖派送停止、超市无法结账、停车场不抬杆。甚至洗衣机、直饮水机和充电桩等服务也停止运转。
封面图

Apache “归档”撤回 13 个大数据相关项目,Hadoop 已成“过气宠儿”

2021-04-15
阅读 2 分钟
2.7k
公开消息表示,Apache 软件基金会在短短 11 天内宣布归档(attic)19个开源项目,与大数据有关的有 13 个,其中 10 个项目属于 Hadoop 生态系统,包括 Sentry、Tajo 和 Falcon 等。

取之开源,用之开源——深度剖析阿里巴巴对Apache Flink的优化与改进

2018-11-05
阅读 6 分钟
5.6k
Apache Flink(以下简称Flink)是诞生于欧洲的一个大数据研究项目,原名StratoSphere。该项目是柏林工业大学的一个研究性项目,早期专注于批计算。2014年,StratoSphere项目中的核心成员孵化出Flink,并在同年将Flink捐赠Apache,后来Flink顺利成为Apache的顶级大数据项目。同时Flink计算的主流方向被定位为流计算,即用...

Apache Tajo:一个运行在YARN上支持SQL的分布式数据仓库

2014-04-08
阅读 3 分钟
4.4k
(1)将SQL转化为MapReduce。典型代表是Apache Hive,这种系统的特点是扩展性和容错性好,但性能低下。为了弥补SQL on MapReduce的不足,google提出了Tenzing(见参考资料[3]),与Hive不同,Tenzing充分借鉴了MapReduce和DataBase的优势,首先,它对传统的MapReduce进行了优化(比如Map 可以不写磁盘,Reduce可不必排序...

2014年大数据市场趋势十大预测

2013-12-30
阅读 2 分钟
4k
大数据是2013年热度最高的技术词汇,这一年大数据市场也实现了高速增长,越来越多的企业开始拥抱大数据解决方案,而随着生态系统的日益成熟,Hadoop也不再是天才技术人员的玩具,而是数据科学家和业务人员手中挖掘数据商业价值的强大“矿机”。

改良的SCR让hadoop拥有更好的性能及安全性

2013-12-18
阅读 3 分钟
5.8k
Apache Hadoop的核心原则就是转移计算比转移数据代价更低。这就是我们尽可能地将计算转移到存储数据之处的原因。因此,HDFS通常使用大量的本地读取,也就是说,读取数据的客户端和要读取的数据在同一节点。

Impala:新一代开源大数据分析引擎

2013-12-08
阅读 6 分钟
7.8k
大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。

LinkedIn 开源其专用于实时数据的处理分布式流处理框架 Samza

2013-09-23
阅读 2 分钟
5.3k
最近LinkedIn 开源其专用于实时数据的处理分布式流处理框架 Samza——Samza,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。