阿里PB级Kubernetes日志平台建设实践

2019-05-30
阅读 10 分钟
QCon是由InfoQ主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。有幸参加这次QCon10周年大会,作为分享嘉宾在刘宇老师的运维专场发表了《阿里PB级Kubernetes日志平台建设实践》,现将PPT和文字稿整理下来,希望和更多的爱好者分享。

TalkingData的Spark On Kubernetes实践

2019-05-23
阅读 8 分钟
众所周知,Spark是一个快速、通用的大规模数据处理平台,和Hadoop的MapReduce计算框架类似。但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式数据的优势,使批处理更加高效,并有更低的延迟。实际上,Spark已经成为轻量级大数据快速处理的统一平台。Spark作为一个数据计...

蚂蚁金服面对亿级并发场景的组件体系设计

2019-05-21
阅读 10 分钟
作者:吕丹(凝睇),2011 年加入支付宝,先后负责了支付宝 Wap、alipass 卡券、SYNC 数据同步等项目,并参与了多次双十一、双十二、春节红包大促活动,在客户端基础服务方面有一定的项目实践经验与积累。目前负责蚂蚁金服移动开发平台 mPaaS 服务端组件体系优化与架构设计。

SLS机器学习最佳实战:日志聚类+异常告警

2019-05-16
阅读 5 分钟
1.手中的锤子都有啥? 围绕日志,挖掘其中更大价值,一直是我们团队所关注。在原有日志实时查询基础上,今年SLS在DevOps领域完善了如下功能: 上下文查询 实时Tail和智能聚类,以提高问题调查效率 提供多种时序数据的异常检测和预测函数,来做更智能的检查和预测 数据分析的结果可视化 强大的告警设置和通知,通过调用we...

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统

2019-05-14
阅读 3 分钟
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下,使用 ChaosBlade 工具,对系统注入各种故障,持续提升分布式系统的容错和弹性能力,以构建高可用的分布式系统。

处理网络超时问题的最佳实践

2019-05-14
阅读 6 分钟
对于云上的用户来说,业务日志里面报超时问题处理起来往往比价棘手,因为1) 问题点可能在云基础设施层,也有可能在业务软件层,需要排查的范围非常广;2) 这类问题往往是不可复现问题,抓到现场比较难。在本文里就分析下如何来分辨和排查这类问题的根本原因。

如何把创建ECS(CreateInstance)作为触发器来触发函数计算

2019-04-15
阅读 3 分钟
函数计算虽然不支持直接集成到ECS的管控事件上,但是函数计算本身是支持日志服务作为触发器的。即可以配置日志服务中logstore里的增强日志作为触发器来触发函数计算服务中的函数,同时可以传递project 和 logstore的name以及beginCursor/endCursor 等相关日志信息作为event到函数计算服务,供其做二次处理和加工。

Node.js 应用故障排查手册 —— 大纲与常规问题指标简介

2019-04-11
阅读 4 分钟
JavaScript 发展到今天,早已脱离原本浏览器的战场,借助于 Node.js 的诞生将其触角伸到了服务端、PC 跨平台客户端方案等各个领域,但是与此同时,JS Runtime 对于绝大部分的开发者来说又一如既往的处于黑盒状态——开发者无法感知其运行状态,出现一些性能、内存问题时也没有很好的工具链进行更深入的支持。

探索Java日志的奥秘:底层日志系统-log4j2

2019-04-10
阅读 44 分钟
log4j2是apache在log4j的基础上,参考logback架构实现的一套新的日志系统(我感觉是apache害怕logback了)。log4j2的官方文档上写着一些它的优点:

Node.js 应用故障排查手册 —— 综合性 GC 问题和优化

2019-04-09
阅读 5 分钟
本章前面两节生产案例分别侧重于单一的 CPU 高和单一的内存问题,我们也给大家详细展示了问题的定位排查过程,那么实际上还有一类相对更复杂的场景——它本质上是 V8 引擎的 GC 引发的问题。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

2019-04-02
阅读 3 分钟
通过DataWorks归档日志服务数据至MaxCompute 官方指导文档:[链接]但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下: 创建数据源: 步骤1、进入数据集成,点击作业数据源,进入Tab页面。 步骤2、 点击右上角 新增数据源,选择消息队列 loghub。 步骤3、编辑LogHub数据源中的必填项,...

信用算力基于 RocketMQ 实现金融级数据服务的实践

2019-03-29
阅读 4 分钟
微服务架构已成为了互联网的热门话题之一,而这也是互联网技术发展的必然阶段。然而,微服务概念的提出者 Martin Fowler 却强调:分布式调用的第一原则就是不要分布式。

Kubernetes Ingress 日志分析与监控的最佳实践

2019-03-27
阅读 5 分钟
Ingress 主要提供 HTTP 层(7 层)路由功能,是目前 K8s 中 HTTP/HTTPS 服务的主流暴露方式。为简化广大用户对于 Ingress 日志分析与监控的门槛,阿里云容器服务和日志服务将 Ingress 日志打通,只需要应用一个 yaml 资源即可完成日志采集、分析、可视化等一整套 Ingress 日志方案的部署。

关于Paxos 幽灵复现问题的看法

2019-03-19
阅读 4 分钟
由于郁白之前写的关于Multi-Paxos 的文章流传非常广, 具体地址: [链接] 原文提出了一个叫"幽灵复现" 的问题, 认为这个是一个很诡异的问题, 后续和很多人交流关于一致性协议的时候, 也经常会提起这个问题, 但是其实这个问题我认为就是常见的"第三态"问题加了一层包装而已.

蚂蚁金服开源 SOFAJRaft:生产级 Java Raft 算法库

2019-03-15
阅读 11 分钟
SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现,支持 MULTI-RAFT-GROUP,适用于高负载低延迟的场景。 使用 SOFAJRaft 你可以专注于自己的业务领域,由 SOFAJRaft 负责处理所有与 Raft 相关的技术难题,并且 SOFAJRaft 非常易于使用,你可以通过几个示例在很短的时间内掌握它。

如何评估深度学习模型效果?阿里工程师这么做

2019-02-22
阅读 4 分钟
小叽导读:复杂的深度模型中,如果效果不好,是因为网络设计的欠缺?还是数据天然缺陷?是训练代码的bug?还是Tensorflow自身的问题?基于此,阿里工程师推出了DeepInsight深度学习质量平台,致力于解决当前模型调试和问题定位等一系列问题。接下来,阿里巴巴高级技术专家、DeepInsight深度学习质量平台技术负责人:孙凯...

如何合理的规划jvm性能调优

2019-02-18
阅读 6 分钟
JVM性能调优涉及到方方面面的取舍,往往是牵一发而动全身,需要全盘考虑各方面的影响。但也有一些基础的理论和原则,理解这些理论并遵循这些原则会让你的性能调优任务将会更加轻松。为了更好的理解本篇所介绍的内容。你需要已经了解和遵循以下内容:

日志服务与SIEM(如Splunk)集成方案实战

2019-01-22
阅读 9 分钟
本文主要介绍如何让阿里云日志服务与您的SIEM方案(如Splunk)对接, 以便确保阿里云上的所有法规、审计、与其他相关日志能够导入到您的安全运维中心(SOC)中。

KubeCon 2018 参会记录 —— FluentBit Deep Dive

2018-12-24
阅读 4 分钟
在最近的上海和北美KubeCon大会上,来自于Treasure Data的Eduardo Silva(Fluentd Maintainer)带来了最期待的关于容器日志采集工具FluentBit的最新进展以及深入解析的分享;我们知道Fluentd是在2016年底正式加入CNCF,成为CNCF项目家族的一员,其被广泛用于容器集群中进行应用日志的采集、处理和聚合,但今天主要是跟大...