阿里云栖号 - SegmentFault 思否

阿里PB级Kubernetes日志平台建设实践

2019-05-30

阅读 10 分钟

QCon是由InfoQ主办的综合性技术盛会，每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。有幸参加这次QCon10周年大会，作为分享嘉宾在刘宇老师的运维专场发表了《阿里PB级Kubernetes日志平台建设实践》，现将PPT和文字稿整理下来，希望和更多的爱好者分享。

TalkingData的Spark On Kubernetes实践

阿里云云栖号

2019-05-23

阅读 8 分钟

众所周知，Spark是一个快速、通用的大规模数据处理平台，和Hadoop的MapReduce计算框架类似。但是相对于MapReduce，Spark凭借其可伸缩、基于内存计算等特点，以及可以直接读写Hadoop上任何格式数据的优势，使批处理更加高效，并有更低的延迟。实际上，Spark已经成为轻量级大数据快速处理的统一平台。Spark作为一个数据计...

蚂蚁金服面对亿级并发场景的组件体系设计

阿里云云栖号

2019-05-21

阅读 10 分钟

作者：吕丹（凝睇），2011 年加入支付宝，先后负责了支付宝 Wap、alipass 卡券、SYNC 数据同步等项目，并参与了多次双十一、双十二、春节红包大促活动，在客户端基础服务方面有一定的项目实践经验与积累。目前负责蚂蚁金服移动开发平台 mPaaS 服务端组件体系优化与架构设计。

SLS机器学习最佳实战：日志聚类+异常告警

阿里云云栖号

2019-05-16

阅读 5 分钟

1.手中的锤子都有啥？围绕日志，挖掘其中更大价值，一直是我们团队所关注。在原有日志实时查询基础上，今年SLS在DevOps领域完善了如下功能：上下文查询实时Tail和智能聚类，以提高问题调查效率提供多种时序数据的异常检测和预测函数，来做更智能的检查和预测数据分析的结果可视化强大的告警设置和通知，通过调用we...

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统

阿里云云栖号

2019-05-14

阅读 3 分钟

在分布式架构环境下，服务间的依赖日益复杂，可能没有人能说清单个故障对整个系统的影响，构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下，使用 ChaosBlade 工具，对系统注入各种故障，持续提升分布式系统的容错和弹性能力，以构建高可用的分布式系统。

处理网络超时问题的最佳实践

阿里云云栖号

2019-05-14

阅读 6 分钟

对于云上的用户来说，业务日志里面报超时问题处理起来往往比价棘手，因为1) 问题点可能在云基础设施层，也有可能在业务软件层，需要排查的范围非常广；2) 这类问题往往是不可复现问题，抓到现场比较难。在本文里就分析下如何来分辨和排查这类问题的根本原因。

如何把创建ECS(CreateInstance)作为触发器来触发函数计算

阿里云云栖号

2019-04-15

阅读 3 分钟

函数计算虽然不支持直接集成到ECS的管控事件上，但是函数计算本身是支持日志服务作为触发器的。即可以配置日志服务中logstore里的增强日志作为触发器来触发函数计算服务中的函数，同时可以传递project 和 logstore的name以及beginCursor/endCursor 等相关日志信息作为event到函数计算服务，供其做二次处理和加工。

Node.js 应用故障排查手册 —— 大纲与常规问题指标简介

阿里云云栖号

2019-04-11

阅读 4 分钟

JavaScript 发展到今天，早已脱离原本浏览器的战场，借助于 Node.js 的诞生将其触角伸到了服务端、PC 跨平台客户端方案等各个领域，但是与此同时，JS Runtime 对于绝大部分的开发者来说又一如既往的处于黑盒状态——开发者无法感知其运行状态，出现一些性能、内存问题时也没有很好的工具链进行更深入的支持。

探索Java日志的奥秘：底层日志系统-log4j2

阿里云云栖号

2019-04-10

阅读 44 分钟

log4j2是apache在log4j的基础上，参考logback架构实现的一套新的日志系统（我感觉是apache害怕logback了）。log4j2的官方文档上写着一些它的优点：

Node.js 应用故障排查手册 —— 综合性 GC 问题和优化

阿里云云栖号

2019-04-09

阅读 5 分钟

本章前面两节生产案例分别侧重于单一的 CPU 高和单一的内存问题，我们也给大家详细展示了问题的定位排查过程，那么实际上还有一类相对更复杂的场景——它本质上是 V8 引擎的 GC 引发的问题。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

阿里云云栖号

2019-04-02

阅读 3 分钟

通过DataWorks归档日志服务数据至MaxCompute 官方指导文档：[链接]但是会遇到大家在分区上或者DataWorks调度参数配置问题，具体拿到真实的case模拟如下：创建数据源：步骤1、进入数据集成，点击作业数据源，进入Tab页面。步骤2、点击右上角新增数据源，选择消息队列 loghub。步骤3、编辑LogHub数据源中的必填项，...

信用算力基于 RocketMQ 实现金融级数据服务的实践

阿里云云栖号

2019-03-29

阅读 4 分钟

微服务架构已成为了互联网的热门话题之一，而这也是互联网技术发展的必然阶段。然而，微服务概念的提出者 Martin Fowler 却强调：分布式调用的第一原则就是不要分布式。

Kubernetes Ingress 日志分析与监控的最佳实践

阿里云云栖号

2019-03-27

阅读 5 分钟

Ingress 主要提供 HTTP 层（7 层）路由功能，是目前 K8s 中 HTTP/HTTPS 服务的主流暴露方式。为简化广大用户对于 Ingress 日志分析与监控的门槛，阿里云容器服务和日志服务将 Ingress 日志打通，只需要应用一个 yaml 资源即可完成日志采集、分析、可视化等一整套 Ingress 日志方案的部署。

关于Paxos 幽灵复现问题的看法

阿里云云栖号

2019-03-19

阅读 4 分钟

由于郁白之前写的关于Multi-Paxos 的文章流传非常广, 具体地址: [链接] 原文提出了一个叫"幽灵复现" 的问题, 认为这个是一个很诡异的问题, 后续和很多人交流关于一致性协议的时候, 也经常会提起这个问题, 但是其实这个问题我认为就是常见的"第三态"问题加了一层包装而已.

蚂蚁金服开源 SOFAJRaft：生产级 Java Raft 算法库

阿里云云栖号

2019-03-15

阅读 11 分钟

SOFAJRaft 是一个基于 Raft 一致性算法的生产级高性能 Java 实现，支持 MULTI-RAFT-GROUP，适用于高负载低延迟的场景。使用 SOFAJRaft 你可以专注于自己的业务领域，由 SOFAJRaft 负责处理所有与 Raft 相关的技术难题，并且 SOFAJRaft 非常易于使用，你可以通过几个示例在很短的时间内掌握它。

如何评估深度学习模型效果？阿里工程师这么做

阿里云云栖号

2019-02-22

阅读 4 分钟

小叽导读：复杂的深度模型中，如果效果不好，是因为网络设计的欠缺？还是数据天然缺陷？是训练代码的bug？还是Tensorflow自身的问题？基于此，阿里工程师推出了DeepInsight深度学习质量平台，致力于解决当前模型调试和问题定位等一系列问题。接下来，阿里巴巴高级技术专家、DeepInsight深度学习质量平台技术负责人：孙凯...

如何合理的规划jvm性能调优

阿里云云栖号

2019-02-18

阅读 6 分钟

JVM性能调优涉及到方方面面的取舍，往往是牵一发而动全身，需要全盘考虑各方面的影响。但也有一些基础的理论和原则，理解这些理论并遵循这些原则会让你的性能调优任务将会更加轻松。为了更好的理解本篇所介绍的内容。你需要已经了解和遵循以下内容:

日志服务与SIEM（如Splunk）集成方案实战

阿里云云栖号

2019-01-22

阅读 9 分钟

本文主要介绍如何让阿里云日志服务与您的SIEM方案(如Splunk)对接, 以便确保阿里云上的所有法规、审计、与其他相关日志能够导入到您的安全运维中心（SOC）中。

KubeCon 2018 参会记录 —— FluentBit Deep Dive

阿里云云栖号

2018-12-24

阅读 4 分钟

在最近的上海和北美KubeCon大会上，来自于Treasure Data的Eduardo Silva（Fluentd Maintainer）带来了最期待的关于容器日志采集工具FluentBit的最新进展以及深入解析的分享；我们知道Fluentd是在2016年底正式加入CNCF，成为CNCF项目家族的一员，其被广泛用于容器集群中进行应用日志的采集、处理和聚合，但今天主要是跟大...