为什么 K8s 集群达万级规模,阿里购物体验还能如丝顺滑?

2019-10-17
阅读 11 分钟
阿里妹导读:本文主要介绍阿里巴巴和蚂蚁金服在大规模生产环境中落地 Kubernetes 的过程中,在集群规模上遇到的典型问题以及对应的解决方案,内容包含对 etcd、kube-apiserver、kube-controller 的若干性能及稳定性增强,这些关键的增强是阿里巴巴和蚂蚁金服内部上万节点的 Kubernetes 集群能够平稳支撑 2019 年天猫 618...

使用datax迁移cassandra数据

2019-10-15
阅读 7 分钟
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现各种异构数据源之间高效的数据同步功能。最近,阿里云cassandra团队为datax提供了cassandra读写插件,进一步丰富了datax支持的数据源,可以很方便实现cassandra之间以及cassandra与其他数据源之间的数据同步。本文简单介绍如何使用datax同步cassandra的数...

阿里巴巴的云原生与开发者

2019-10-15
阅读 6 分钟
摘要:利用云原生技术构建应用简便快捷,部署应用轻松自如,运行应用按需伸缩。如今,云原生已经成为下一代技术发展的趋势。在 2019 杭州云栖大会开发者峰会上,阿里巴巴资深技术专家李响就为大家分享了阿里巴巴的云原生技术与开发者的那些故事。

BDS-HA:构建高可用、低延迟的HBase服务

2019-10-12
阅读 4 分钟
HBase可以支持百TB数据规模、数百万QPS压力下的毫秒响应,适用于大数据背景下的风控和推荐等在线场景。阿里云HBase服务了多家金融、广告、媒体类业务中的风控和推荐,持续的在高可用、低延迟、低成本方向上进行优化。目前单集群承诺可用性99.9%,SSD机型上可以做到请求毛刺99.5% < 50ms,以及新上线的表内冷热分离可...

从零开始入门 K8s | 可观测性:你的应用健康吗?

2019-10-12
阅读 10 分钟
首先来看一下,整个需求的来源:当把应用迁移到 Kubernetes 之后,要如何去保障应用的健康与稳定呢?其实很简单,可以从两个方面来进行增强:

不吹不黑,今天我们来聊一聊 Kubernetes 落地的三种方式

2019-10-10
阅读 5 分钟
 Kubernetes 社区成员与项目维护者原文标题《Kubernetes 应用之道:让 Kubernetes落地的“三板斧”》,首发于知乎专栏:进击的云计算原文地址:[链接]

K8s 从懵圈到熟练 – 集群网络详解

2019-10-09
阅读 3 分钟
导读:阿里云 K8S 集群网络目前有两种方案:一种是 flannel 方案;另外一种是基于 calico 和弹性网卡 eni 的 terway 方案。Terway 和 flannel 类似,不同的地方在于 terway 支持 Pod 弹性网卡,以及 NetworkPolicy 功能。本文中,作者基于当前的 1.12.6 版本,以 flannel 为例,深入分析阿里云 K8S 集群网络的实现方法。

当 K8s 集群达到万级规模,阿里巴巴如何解决系统各组件性能问题?

2019-09-24
阅读 8 分钟
本文主要介绍阿里巴巴在大规模生产环境中落地 Kubernetes 的过程中,在集群规模上遇到的典型问题以及对应的解决方案,内容包含对 etcd、kube-apiserver、kube-controller 的若干性能及稳定性增强,这些关键的增强是阿里巴巴内部上万节点的 Kubernetes 集群能够平稳支撑 2019 年天猫 618 大促的关键所在。

sstableloader工具使用及原理解析

2019-09-16
阅读 4 分钟
sstableloader是cassandra提供的bulkload工具,可以将sstable文件导入到集群中。本文详细介绍其用法和实现原理。

K8S从懵圈到熟练 - 节点下线姊妹篇

2019-09-11
阅读 10 分钟
之前分享过一例集群节点NotReady的问题。在那个问题中,我们的排查路劲,从K8S集群到容器运行时,再到sdbus和systemd,不可谓不复杂。那个问题目前已经在systemd中做了修复,所以基本上能看到那个问题的几率是越来越低了。

应用优雅上下线

2019-09-06
阅读 4 分钟
1. 概述 kubernetes滚动升级的过程: 集群Deployment 或者 Statefulset 发生变化,触发部署滚动升级; 根据 Deolyement 等配置,K8S集群首先启动新的POD来替代老 POD; Deployemnt 根据配置调度 POD,拉取镜像,此时 POD 进入 Pending 状态; POD 绑定到Node上,启动容器,在就绪检查readinessProbe 探针通过后,新的POD...

Istio从懵圈到熟练 – 二分之一活的微服务

2019-09-05
阅读 7 分钟
Istio is the future!基本上,我相信对云原生技术趋势有些微判断的同学,都会有这个觉悟。其背后的逻辑其实是比较简单的:当容器集群,特别是K8S成为事实上的标准之后,应用必然会不断的复杂化,服务治理肯定会成为强需求。

K8s 学习者绝对不能错过的最全知识图谱(内含 56个知识点链接)

2019-08-29
阅读 6 分钟
导读:Kubernetes 作为云原生时代的“操作系统”,熟悉和使用它是每名用户的必备技能。本篇文章概述了容器服务 Kubernetes 的知识图谱,部分内容参考了网上的知识图谱,旨在帮助用户更好的了解 K8s 的相关知识。

云控平台的双向音频解决方案

2019-08-27
阅读 4 分钟
随着移动互联网的发展,行业内衍生了基于移动平台的各类解决方案。其中,设备规模化管理的云控能力是各互联网公司在设备集群控制背景下的诉求。因此涌现了大批提供类似解决方案的平台。如:阿里系的阿里云MQC、阿里无线和菜鸟Nimitz等,阿里之外的有Testin、百度MTC、腾讯WeTest、华为、三星等等。

优化 Tengine HTTPS 握手时间

2019-08-12
阅读 4 分钟
网络延迟是网络上的主要性能瓶颈之一。在最坏的情况下,客户端打开一个链接需要DNS查询(1个 RTT),TCP握手(1个 RTT),TLS 握手(2个RTT),以及最后的 HTTP 请求和响应,可以看出客户端收到第一个 HTTP 响应的首字节需要5个 RTT 的时间,而首字节时间对 web 体验非常重要,可以体现在网站的首屏时间,直接影响用户判...

Cloud Toolkit 部署应用到 EDAS Kubernetes 集群

2019-08-02
阅读 2 分钟
1、在 IntelliJ IDEA 上单击 Cloud Toolkit 的图标,在下拉列表中选择 Deploy to EDAS -> EDAS for Kubernetes Application

K8S从懵圈到熟练 – 集群服务的三个要点和一种实现

2019-07-30
阅读 5 分钟
这体现在,对于新手来说,ping不通服务的IP地址这样基础的问题,都很难理解;而就算对经验很丰富的工程师来说,看懂服务相关的iptables配置,也是相当的挑战。

使用EMR-Kafka Connect进行数据迁移

2019-07-30
阅读 2 分钟
流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。

从零到破万节点!支撑618大促背后的蚂蚁金服Kubernetes集群

2019-07-29
阅读 8 分钟
2019年天猫618大促,蚂蚁金服首次在大促中对调度系统和技术栈全面应用Kubernetes,突破了Kubernetes单集群万节点的规模,总节点数达到数十万个,这是世界最大规模的 Kubernetes 集群之一,而这距离开发团队下载Kubernetes代码仅一年之久。

Kubenetes 监控一站式解决方案:阿里云 Prometheus 免费公测

2019-07-25
阅读 2 分钟
Prometheus是目前企业级云原生应用的首选开源监控工具。作为云原生计算基金会(CNCF)第二个毕业的项目(第一个是Kubernetes),Prometheus对K8s容器环境有很好的原生支持。近日刚刚发布免费公测的阿里云Prometheus(免费试用页面)提供了无缝对接Kubernetes集群的一站式、全托管监控解决方案,让用户可以方便灵活的一键...

K8S从懵圈到熟练 - 我们为什么会删除不了集群的命名空间?

2019-07-23
阅读 6 分钟
阿里云售后技术团队的同学,每天都在处理各式各样千奇百怪的线上问题。常见的有,网络连接失败,服务器宕机,性能不达标,请求响应慢等。但如果要评选,什么问题看起来微不足道事实上却足以让人绞尽脑汁,我相信答案肯定是“删不掉”的问题。比如文件删不掉,进程结束不掉,驱动卸载不了等。

重磅!容器集群监控利器 阿里云Prometheus 正式免费公测

2019-07-19
阅读 2 分钟
Prometheus 作为容器生态下集群监控的首选方案,是一套开源的系统监控报警框架。它启发于 Google 的 borgmon 监控系统,并于 2015 年正式发布。2016 年,Prometheus 正式加入 Cloud Native Computing Foundation,成为受欢迎度仅次于 Kubernetes 的项目。

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

2019-07-18
阅读 8 分钟
作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。

MongoDB sharding 集合不分片性能更高?

2019-07-11
阅读 1 分钟
最近云上用户用户遇到一个 sharding 集群性能问题的疑惑,比较有代表性,简单分享一下 测试配置 mongos x 2、shard x 3 测试1:集合不开启分片,批量 insert 导入数据,每个 batch 100 个文档 测试2:集合开启分片,随机生成 shardKey,chunk 已提前 split 好,能确保写入均分到3个shard 测试结果 测试1:单个 shard cpu...

千亿级的数据难题,优酷工程师怎么解决?

2019-07-10
阅读 5 分钟
阿里妹导读:优酷一天的日志量会达到千亿级别,面对如此大的数据样本,2017年5月,优酷完成了从Hadoop迁移到阿里云MaxCompute,实现计算消耗和储存的消耗呈下降趋势,得到了非常大的收益。今天,阿里数据技术专家门德亮给大家做个分享,从为什么要用MaxCompute,到优酷的业务场景下典型的方案及应用分析,聊聊迁移后对业...

云原生应用 Kubernetes 监控与弹性实践

2019-07-04
阅读 4 分钟
云原生应用的设计理念已经被越来越多的开发者接受与认可,而Kubernetes做为云原生的标准接口实现,已经成为了整个stack的中心,云服务的能力可以通过Cloud Provider、CRD Controller、Operator等等的方式从Kubernetes的标准接口向业务层透出。开发者可以基于Kubernetes来构建自己的云原生应用与平台,Kubernetes成为了构...

K8S环境中NAS卷添加noresvport方法

2019-07-03
阅读 5 分钟
通过K8S使用NAS卷,请区分以下场景: 静态存储卷: 使用阿里云ACK,PV、PVC方式,nfs驱动; 使用阿里云ACK,PV、PVC方式,Flexvolume驱动; 使用阿里云ACK,Volume方式,nfs驱动; 使用阿里云ACK,Volume方式,Flexvolume驱动; 自建K8S,PV、PVC方式,nfs驱动; 自建K8S,Volume方式,nfs驱动; 动态存储卷: 使用阿里...

坚持探索与落地并重,阿里巴巴云原生之路全景揭秘

2019-06-28
阅读 4 分钟
阿里妹导读:阿里云已经成功地规模化落地云原生,26日的 KubeCon 大会上,CNCF TOC 和阿里云资深技术专家李响发表主题演讲,分享了阿里巴巴在规模扩展、可靠性、开发效率、迁移策略等方面的经验,并探讨云原生的落地及应对若干技术挑战。

Linus 本尊来了!为什么 KubeCon 越来越火?

2019-06-27
阅读 6 分钟
阿里妹导读: 从200人的小会议到3500 多位云原生和开源领域工程师齐聚一堂的大会,KubeCon 只用了四年,昨天,在KubeCon China 2019 上阿里巴巴宣布开源 OpenKruise,今天,Linus 本尊竟然现身会场!现在,我们继续连线会场,探索阿里云为开发者带来的多份重磅献礼。

容器服务Windows Kubernetes使用阿里云日志服务来收集容器日志

2019-06-20
阅读 3 分钟
目前,容器服务Windows Kubernetes支持将业务容器产生的stdout输出、日志文件同步到阿里云日志服务(SLS)进行统一管理。