十行代码让日志存储降低80%

2023-09-21
阅读 8 分钟
履约管理是一个面向物流商家的OMS工作台,自从初代目把架子搭起来之后,就没有继续投入了,后来一直是合作伙伴同学在负责日常维护和需求支撑。经过几年的野蛮生长,系统已经杂草丛生,乱象百出。再后来,甚至一度成为一块无主之地,走行业共建的方式来支持。对于一个不支持行业隔离的系统,行业共建意味这个系统将快速腐...

基于 Log 的通用增量 Checkpoint

2023-06-01
阅读 11 分钟
摘要:本文整理自阿里巴巴开发工程师,Apache Flink Contributor 俞航翔,在 Flink Forward Asia 2022 核心技术专场的分享。本篇内容主要分为四个部分:

通过日志服务实现数据库MySQL入湖OSS实践

2023-02-16
阅读 4 分钟
日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能。阿里云提供了企业级的数据湖解决方案,存储层基于阿里云对象存储OSS构建。日志服务支持开箱即用的OSS投递入湖功能,实现数据的端到端的入湖。

iLogtail 开源之路

2023-01-10
阅读 12 分钟
2022年6月底,阿里云iLogtail代码完整开源,正式发布了完整功能的iLogtail社区版。iLogtail作为阿里云SLS官方标配的采集器,多年以来一直稳定服务阿里集团、蚂蚁集团以及众多公有云上的企业客户,目前已经有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场...

如何基于运维事件中心通过 logstash 进行日志关键字监控

2022-12-09
阅读 3 分钟
日常运维过程中,很多场景都需要对日志关键字进行监测,以便第一时间发现应用/业务相关异常,这是一种比较常见的监控需求,所以也有很多方法可以实现关键字告警。对于简单的告警可以通过一些传统的监控工具实现,但对于体量和业务是非常复杂的中大型企业来说,在海量日志的情况下会存在运维问题、配置分散复杂、性能要求...

IDE 插件新版本发布,总有一个功能帮到你——开发部署提速 8 倍

2019-12-31
阅读 4 分钟
对于开发者而言,提高工作效率大概有 2 种主要方式,第一种方式就是加快自己的工作速度,争取在同一段时间内多码一些代码、多干一些活来实现多产;而聪明的开发者会选择第二种方式,就是通过插件,让一些重复性的、繁琐性的工作被自动化,从而节省出时间来做一些实质性的业务,达到轻松又高效的工作步调。

解密淘宝推荐实战,打造 “比你还懂你” 的个性化APP

2019-12-13
阅读 5 分钟
手淘推荐的快速发展源于2014年阿里“All in 无线”战略的提出。在无线时代,手机屏幕变小,用户无法同时浏览多个视窗,交互变得困难,在这样的情况下,手淘借助个性化推荐来提升用户在无线端的浏览效率。经过近几年的发展,推荐已经成为手淘上面最大的流量入口,每天服务数亿用户,成交量仅次于搜索,成为了手淘成交量第二...

Logtail 混合模式:使用插件处理文件日志

2019-11-19
阅读 7 分钟
作为一个服务百万机器的日志采集 agent,Logtail 目前已经提供了包括日志切分、日志解析(完整正则、JSON、分隔符)、日志过滤在内的常见处理功能,能够应对绝大多数场景的处理需求。但有些时候,由于应用的历史原因或是本身业务日志的复杂性,单一功能可能无法满足所采集日志的处理需求,比如:

云原生下日志方案的架构设计

2019-11-14
阅读 4 分钟
上一篇中我们介绍了为什么需要一个日志系统、为什么云原生下的日志系统如此重要以及云原生下日志系统的建设难点,相信DevOps、SRE、运维等同学看了是深有体会的。本篇文章单刀直入,会直接跟大家分享一下如何在云原生的场景下搭建一个灵活、功能强大、可靠、可扩容的日志系统。

码农节快乐|一个系统,高效解决复杂事件采集-计算-实时触达

2019-10-25
阅读 4 分钟
昨天是1024,一个特别的数字,比如某网站内容的解压密码通常都是1024,想求一个种子留言也是1024。1024是属于广大程序猿(又称码农)的节日,在这样一个节日里,各种“黑”程序猿的新老段子将纷纷出现在各大媒体网站。为什么程序猿属于经常被黑的一个群体?凌乱的发型、黑框眼镜、双肩包、格子衫、牛仔裤、运动鞋、钱多话...

如何查看使用 Cloud Toolkit 部署应用的实时日志

2019-10-11
阅读 1 分钟
之前,我们介绍了《在 IntelliJ IDEA 中部署应用到服务器》。最新版本 Cloud Toolkit 新增了对远程服务器应用部署时,实时日志的查看功能。功能预览如下: 点击查看大图 打开应用部署的配置界面,如上图所示,点击「Advanced」标签页,如下图: 在 Command 中填入查看实时日志的命令即可,一般为: {代码...} 并且勾选上...

蚂蚁金服在云原生架构下的可观察性的探索和实践

2019-09-03
阅读 7 分钟
本文根据 8 月 11 日 SOFA Meetup#3 广州站 《蚂蚁金服在云原生架构下的可观察性的探索和实践》主题分享整理。现场回顾视频以及 PPT 查看地址见文末链接。

日志服务数据加工最佳实践: 从其他logstore拉取数据做富化

2019-09-03
阅读 4 分钟
使用全局富化函数做富化时, 需要传递一个字典或者表格结构做富化. 参考构建字典与表格做数据富化的各种途径比较. 本篇介绍从使用资源函数res_log_logstore_pull从其他logstore拉取数据的做富化的详细实践.关于res_log_logstore_pull的参数说明, 参考这里. 该语法目前支持两种模式去logstore拉取数据,一种是拉取指定时间...

一行命令导致的数据丢失,阿里工程师是如何恢复的?

2019-08-30
阅读 6 分钟
阿里妹导读:数据安全性被提到了前所未有的高度,数据保护的话题越来越成为敏感。因为,业务的中断时间对用户造成的影响愈来愈大。阿里技术专家凡钧从数据安全的形势与发展,面临的挑战,问题的定义,传统的解决方案,当前云厂商的解决方案,去阐述什么是连续数据保护并提出了弹性的可验证的连续数据保护方案(Elastic As...

MongoDB副本集同步原理

2019-08-26
阅读 9 分钟
MongoDB的同步原理,官方文档介绍的比较少,网上资料也不是太多,下面是结合官方文档、网上资料和测试时候的日志,整理出来的一点东西。因为MongoDB的每个分片也是副本集,所以只需要搞副本集的同步原理即可。

MySQL8.0.17 - 初探 Clone Plugin

2019-08-14
阅读 4 分钟
MySQL8.0.17推出了一个重量级的功能:clone plugin。允许用户可以将当前实例进行本地或者远程的clone。这在某些场景尤其想快速搭建复制备份或者在group replication里加入新成员时非常有用。本文主要试玩下该功能,并试图阐述下其实现的机制是什么。

K8S从懵圈到熟练 - 我们为什么会删除不了集群的命名空间?

2019-07-23
阅读 6 分钟
阿里云售后技术团队的同学,每天都在处理各式各样千奇百怪的线上问题。常见的有,网络连接失败,服务器宕机,性能不达标,请求响应慢等。但如果要评选,什么问题看起来微不足道事实上却足以让人绞尽脑汁,我相信答案肯定是“删不掉”的问题。比如文件删不掉,进程结束不掉,驱动卸载不了等。

OpenTelemetry-可观察性的新时代

2019-07-23
阅读 5 分钟
有幸在2019KubeCon上海站听到Steve Flanders关于OpenTelemetry的演讲,之前Ops领域两个网红项目OpenTracing和OpenCensus终于走到了一起,可观察性统一的标准化已经扬帆起航。这篇文章旨在抛砖引玉,希望能够和更多的同学一起交流可观察性相关的内容。

阿里云InfluxDB® Raft HybridStorage实现方案

2019-07-11
阅读 5 分钟
阿里云InfluxDB®是阿里云基于开源版InfluxDB打造的一款时序数据库产品,提供更稳定的持续运行状态、更丰富强大的时序数据计算能力。在现有的单节点版本之外,阿里云InfluxDB®团队还将推出多节点的高可用版本。

使用Spark Streaming SQL基于时间窗口进行数据统计

2019-07-08
阅读 3 分钟
流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。比如埋点日志中每条日志记录了埋点处操作的时间,或者业务系统中记录了用户操作时间,用于统计各种操作处理的频率等,或者根据规则匹配,进行异常行为检测或监控系统告警。这样的时间数据都会包含在事件数据中,需要提取...

云原生应用 Kubernetes 监控与弹性实践

2019-07-04
阅读 4 分钟
云原生应用的设计理念已经被越来越多的开发者接受与认可,而Kubernetes做为云原生的标准接口实现,已经成为了整个stack的中心,云服务的能力可以通过Cloud Provider、CRD Controller、Operator等等的方式从Kubernetes的标准接口向业务层透出。开发者可以基于Kubernetes来构建自己的云原生应用与平台,Kubernetes成为了构...

SLS机器学习最佳实战:批量时序异常检测

2019-07-01
阅读 4 分钟
集群中有N台机器,每台机器中有M个时序指标(CPU、内存、IO、流量等),若单独的针对每条时序曲线做建模,要手写太多重复的SQL,且对平台的计算消耗特别大。该如何更好的应用SQL实现上述的场景需求?

云上的Growth hacking之路,打造产品的增长引擎

2019-06-25
阅读 3 分钟
增长!增长!增长!业务增长是每一个创业者每天面临的最大问题。无论你的产品是APP,还是web,或者是小程序,只能不断的维持用户的增长,才能向资本市场讲出一个好故事,融资活下去。活到最后的产品,才有机会盈利。

揭秘|每秒千万级的实时数据处理是怎么实现的?

2019-06-21
阅读 5 分钟
闲鱼目前实际生产部署环境越来越复杂,横向依赖各种服务盘宗错节,纵向依赖的运行环境也越来越复杂。当服务出现问题的时候,能否及时在海量的数据中定位到问题根因,成为考验闲鱼服务能力的一个严峻挑战。

容器服务Windows Kubernetes使用阿里云日志服务来收集容器日志

2019-06-20
阅读 3 分钟
目前,容器服务Windows Kubernetes支持将业务容器产生的stdout输出、日志文件同步到阿里云日志服务(SLS)进行统一管理。

十分钟上线 - 函数计算构建支付宝小程序的后端

2019-06-19
阅读 5 分钟
阿里云函数计算服务(FunctionCompute,FC)是一个事件驱动的全托管计算服务。通过函数计算与云端各个服务的广泛集成,开发者只需要编写函数代码,就能够快速地开发出弹性高可用的后端系统。接下来我们使用FC,来快速实现一个图片转换服务, 并把这个图片转换服务作为支付宝小程序的后端。

基于Knative开发应用

2019-06-17
阅读 4 分钟
目录 安装 Istio 安装 Knative 玩转 helloworld-go WordPress 实战 创建 Kubernetes 集群 确保 Kubernetes 集群创建的时候已经选择了启用日志服务 确保 Kubernetes 集群和 OSS 在一个 region Kubernetes 集群创建的时候需要开启 kube-apiserver 公网访问 提前帮用户配置好 kubeconfig 命令行 安装 Istio 安装 Istio 时注...

MySQL8.0 - 新特性 - 说说InnoDB Log System的隐藏参数

2019-06-04
阅读 4 分钟
InnoDB在设计lock-free的log system时,除了已有的参数外,还通过宏控制隐藏了一些参数,如果你使用源码编译时,打开cmake选项-DENABLE_EXPERIMENT_SYSVARS=1, 就可以看到这些参数了。本文主要简单的过一下这些隐藏的参数所代表的含义

自动化日志收集及分析在支付宝 App 内的演进

2019-05-30
阅读 6 分钟
结合《蚂蚁金服面对亿级并发场景的组件体系设计》,我们能够通盘了解支付宝移动端基础组件体系的构建之路和背后的思考,本文基于服务端组建体系的大背景下,着重探讨“自动化日志手机与分析”在支付宝 App 内的演进之路。

阿里PB级Kubernetes日志平台建设实践

2019-05-30
阅读 10 分钟
QCon是由InfoQ主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。有幸参加这次QCon10周年大会,作为分享嘉宾在刘宇老师的运维专场发表了《阿里PB级Kubernetes日志平台建设实践》,现将PPT和文字稿整理下来,希望和更多的爱好者分享。