数据湖存储的安全写入之道

2023-03-27
阅读 14 分钟
说到对象存储,必然涉及到 S3 协议,S3 协议已经事实上成为对象存储的通用协议。不过,市面上不少数据平台公司,也会选择基于 S3 协议又兼顾 Hadoop 使用习惯的 S3A Connector,比如 Databricks 在对象存储上提供的表数据结构 Delta Lake。

企业的数据存储、处理与分析之道

2023-01-12
阅读 4 分钟
12月30日,SelectDB 携手阿里云共同举办云数仓专场沙龙,在线上沙龙中,来自 SelectDB 和 阿里云的四位云计算领域专家,深入数仓的发展现状和未来趋势,结合企业级的真实场景落地案例,对技术和产品进行了详细的解读。

OceanBase时序数据库CeresDB正式商用 为用户提供安全可靠的数据存储管理服务

2021-06-29
阅读 1 分钟
近日,在数据库OceanBase3.0峰会上,OceanBase CEO杨冰宣布首个时序数据库产品CeresDB正式商用。该数据库将为用户提供安全可靠的数据查询和存储管理服务,解决监控运维、物联网等场景中,时间序列数据的高吞吐、横向扩展等难题。
封面图

物联网海量时序数据存储有哪些挑战?

2021-05-17
阅读 8 分钟
简介: 随着 IoT 技术的快速发展,物联网设备产生的数据呈爆炸式增长,数据的总量(Volume)、数据类型越来越多(Variety)、访问速度要求越来越快(Velocity)、对数据价值(Value)的挖掘越来越重视。物联网产生的数据通常都具备时间序列特征,时序数据库是当前针对物联网 IoT、工业互联网 IIoT、应用性能监控 APM 场...
封面图

数据湖,已成为海量数据存储与分析的重要承载方式

2021-03-26
阅读 2 分钟
简介: 在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,根据Gartner报道,2019年数据基建方面的采购费用飙升到660亿美元,占据基础架构类软件费用的24%。数据的存储及应用体系是企业生态运转的中枢神经,数据湖已经成为海量数据存储与分析的重要承载方式。
封面图

从零开始入门 K8s | 手把手带你理解 etcd

2019-12-11
阅读 8 分钟
导读:etcd 是用于共享配置和服务发现的分布式、一致性的 KV 存储系统。本文从 etcd 项目发展所经历的几个重要时刻开始,为大家介绍了 etcd 的总体架构及其设计中的基本原理。希望能够帮助大家更好的理解和使用 etcd。

解密 云HBase时序引擎OpenTSDB 优化技术

2019-12-03
阅读 4 分钟
时序数据库是专门存放随着时间推移而不断变化的数据。近些年,随着IoT等概念的流行,时序数据库成为数据库一个相对独立的领域逐渐受到重视,广泛应用于物联网、监控系统、金融、医疗和零售等多种场景。

RocketMQ消息轨迹-设计篇

2019-09-11
阅读 2 分钟
RocketMQ 消息轨迹主要包含两篇文章:设计篇与源码分析篇,本节将详细介绍RocketMQ消息轨迹-设计相关。 RocketMQ消息轨迹,主要跟踪消息发送、消息消费的轨迹,即详细记录消息各个处理环节的日志,从设计上至少需要解决如下三个核心问题: 消费轨迹数据格式 记录消息轨迹(消息日志) 消息轨迹数据存储在哪? 1、消息轨迹...

Tablestore + Blink实战:交易数据的实时统计

2019-08-15
阅读 4 分钟
交易数据的实时统计是电商网站一个核心功能,可以帮助用户实时统计网站的整体销售情况,快速验证“新销售策略”的效果。我们今天介绍一个基于表格存储(Tablestore)实现交易数据的实时计算,给大家提供一个新使用方式。

重磅!容器集群监控利器 阿里云Prometheus 正式免费公测

2019-07-19
阅读 2 分钟
Prometheus 作为容器生态下集群监控的首选方案,是一套开源的系统监控报警框架。它启发于 Google 的 borgmon 监控系统,并于 2015 年正式发布。2016 年,Prometheus 正式加入 Cloud Native Computing Foundation,成为受欢迎度仅次于 Kubernetes 的项目。

MongoDB compact 命令详解

2019-07-18
阅读 2 分钟
db.collection.remove({}, {multi: true}),逐个文档从 btree 里删除,最后所有文档被删除,但文件物理空间不会被回收

如何将Elasticsearch的快照备份至OSS

2019-07-16
阅读 5 分钟
Elasticsearch 是一个开源的分布式 RESTful 搜索和分析引擎。它可以在近实时条件下,存储,查询和分析海量的数据。它还支持将快照备份至HDFS/S3上面,而阿里云OSS兼容S3的API,本文将介绍如何使用ES的Repository-S3插件将快照备份至OSS。

AnalyticDB for MySQL 3.0基础版重磅发布

2019-07-11
阅读 2 分钟
随着大数据技术的迅速发展以及对数据价值的认识逐渐加深,大数据已经融合到各行各业。据可靠权威数据显示,超过39.6%的企业正在应用数据并从中获益,超过89.6%的企业已经成立或计划成立相关的大数据分析部,超过六成的企业在扩大数据的投入力度度。在这样的大数据行业背景下AnalyticDB for MySQL3.0基础版发布了。Analyt...

Tableau BI工具对接 AnalyticDB for PostgreSQL数据源

2019-06-26
阅读 3 分钟
AnalyticDB for PostgreSQL(原HybridDB for PostgreSQL)作为高性能分析型数据库,可以支持用户对其业务数据进行实时分析,能够让企业敏锐感知市场动态,做出必要决策。Tableau是一款数据分析与可视化工具,它支持连接本地或云端数据,不管是电子表格,还是数据库数据,都能进行无缝连接。本文介绍Tableau以AnalyticDB ...

MongoDB 4.2 新特性解读

2019-06-24
阅读 6 分钟
基于飞天分布式系统和高性能存储,提供三节点副本集的高可用架构,容灾切换,故障迁移完全透明化。并提供专业的数据库在线扩容、备份回滚、性能优化等解决方案。

HSF/Dubbo序列化时的LocalDateTime, Instant的性能问题

2019-06-18
阅读 4 分钟
在对Dubbo新版本做性能压测时,无意中发现对用例中某个TO(Transfer Object)类的一属性字段稍作修改,由Date变成LocalDateTime,结果是吞吐量由近5w变成了2w,RT由9ms升指90ms。

优酷背后的大数据秘密

2019-06-12
阅读 5 分钟
大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年现在的5月优酷的发展历程,上面是计算资源,下面是...

【ECS最佳实践】基于多块云盘构建LVM逻辑卷

2019-06-10
阅读 6 分钟
LVM是逻辑盘卷管理(Logical Volume Manager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。

BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览

2019-05-22
阅读 9 分钟
越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库,国内以阿里云的Cloud HBase、POLARDB为代表,此块文章会有一定的引述,但不是本文的重点。

etcd 在超大规模数据场景下的性能优化

2019-05-15
阅读 5 分钟
etcd是一个开源的分布式的kv存储系统, 最近刚被cncf列为沙箱孵化项目。etcd的应用场景很广,很多地方都用到了它,例如kubernetes就用它作为集群内部存储元信息的账本。本篇文章首先介绍我们优化的背景,为什么我们要进行优化, 之后介绍etcd内部存储系统的工作方式,之后介绍本次具体的实现方式及最后的优化效果。

阿里靠什么支撑 EB 级计算力?

2019-04-18
阅读 9 分钟
阿里妹导读:MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概...

阿里小二的日常工作要被TA们“接管”了!

2019-04-01
阅读 3 分钟
昨天有人偷偷告诉我说 阿里巴巴其实是一家科技公司! 我想了整整一夜 究竟是谁走漏了风声 那么重点来了,阿里到底是如何在内部的办公、生活中,玩转“黑科技”的呢? AI取名:给你专属的“武侠”花名 花名是阿里巴巴独特的文化,也是阿里员工独一无二的“身份”。 在2018年云栖大会企业智能的展台上,每个参观者都拥有了一个自...

使用split_size优化的ODPS SQL的场景

2019-03-20
阅读 2 分钟
说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:set odps.sql.mapper.split.size=256。一般在调整这个设置时,往往是发现一个map instance处理的数据行数太多。

MySQL中update修改数据与原数据相同会再次执行吗

2019-03-19
阅读 7 分钟
背景 本文主要测试MySQL执行update语句时,针对与原数据(即未修改)相同的update语句会在MySQL内部重新执行吗? 测试环境 MySQL5.7.25 Centos 7.4 binlog_format为ROW 参数 {代码...} 测试步骤 session1 {代码...} session2 {代码...} session1 {代码...} 总结 在binlog_format=row和binlog_row_image=FULL时,由于MySQ...

分布式系统:一致性模型

2019-03-13
阅读 4 分钟
分布式系统中一个重要的问题就是数据复制,数据复制一般是为了增强系统的可用性或提高性能。而实现数据复制的一个主要难题就是保持各个副本的一致性。本文首先讨论数据复制的场景中一致性模型如此重要的原因,然后讨论一致性模型的含义,最后分析常用的一致性模型。

TableStore:爬虫数据存储和查询利器

2019-03-05
阅读 5 分钟
TableStore是阿里云自研的在线数据平台,提供高可靠的存储,实时和丰富的查询功能,适用于结构化、半结构化的海量数据存储以及各种查询、分析。

阿里云发布时间序列数据库TSDB,关于时序你了解多少?

2019-02-26
阅读 3 分钟
时间序列数据是一种表示物理设备,系统、应用过程或行为随时间变化的数据,广泛应用于物联网,工业物联网,基础运维系统等场景。阿里云TSDB 时间序列数据库可以解决大规模时序数据的可靠写入,降低数据存储成本,实时灵活的完成业务数据聚合分析。

一致性协议浅析:从逻辑时钟到Raft

2019-02-19
阅读 10 分钟
春节在家闲着没事看了几篇论文,把一致性协议的几篇论文都过了一遍。在看这些论文之前,我一直有一些疑惑,比如同样是有Leader和两阶段提交,Zookeeper的ZAB协议和Raft有什么不同,Paxos协议到底要怎样才能用在实际工程中,这些问题我都在这些论文中找到了答案。接下来,我将尝试以自己的语言给大家讲讲这些协议,使大家...