从运维小白成长为运维开发专家的修炼之路

2023-09-26
阅读 1 分钟
726
类型技术栈名称和地址 前后端开发gin/gorm/vue3/ts<持续更新>7模块大运维平台开发-go-vue-k8s-cicd-服务树-监控 前后端开发vue2/restfulapik8s管理运维平台实战前端vue后端golang go后端开发 go语言基础go语言基础golang语言基础课程 go运维工具开发dag/pipelinegolang实战开发课程之pipeline流水线工具 go运维平...

prometheus-go-sdk不活跃指标清理问题

2022-06-21
阅读 8 分钟
1.9k
k8s教程说明k8s底层原理和源码讲解之精华篇k8s底层原理和源码讲解之进阶篇k8s纯源码解读课程,助力你变成k8s专家k8s-operator和crd实战开发 助你成为k8s专家tekton全流水线实战和pipeline运行原理源码解读prometheus全组件的教程01_prometheus全组件配置使用、底层原理解析、高可用实战02_prometheus-thanos使用和源码解...
封面图

kube-prometheus和prometheus-operator教程之实战和原理介绍

2021-09-17
阅读 2 分钟
4.6k
这一切的一切仅在这里kube-prometheus和prometheus-operator史诗级教程prometheus-guidebook git仓库地址guidebook仓库地址kube-prometheus解决了哪些问题一键化部署k8s-prometheus中的所有组件复杂的k8s采集自动生成内置了很多alert和record rule,专业的promql,不用我们自己写了多级嵌套的record计算如apiserver的slo...

thanos教程之不理解prometheus原理thanos怎样都学不好

2021-09-15
阅读 1 分钟
2.3k
源码级别教程地址源码级别教程地址k8s教程说明k8s底层原理和源码讲解之精华篇k8s底层原理和源码讲解之进阶篇k8s纯源码解读课程,助力你变成k8s专家k8s-operator和crd实战开发 助你成为k8s专家tekton全流水线实战和pipeline运行原理源码解读prometheus全组件的教程01_prometheus全组件配置使用、底层原理解析、高可用实战...

为什么说prometheus是为云原生监控而生的,prometheus为k8s监控做的四大适配工作

2021-06-09
阅读 7 分钟
3.9k
视频教程教程地址k8s教程说明k8s底层原理和源码讲解之精华篇k8s底层原理和源码讲解之进阶篇k8s纯源码解读课程,助力你变成k8s专家k8s-operator和crd实战开发 助你成为k8s专家tekton全流水线实战和pipeline运行原理源码解读prometheus全组件的教程01_prometheus全组件配置使用、底层原理解析、高可用实战02_prometheus-th...
封面图

prometheus指南:采集k8s的原理和高可用存储实践

2021-06-02
阅读 2 分钟
3.3k
k8s零基础入门运维课程k8s零基础入门运维课程,计算存储网络和常见的集群相关操作k8s纯源码解读教程(3个课程内容合成一个大课程)k8s底层原理和源码讲解之精华篇k8s底层原理和源码讲解之进阶篇k8s纯源码解读课程,助力你变成k8s专家k8s运维进阶调优课程k8s运维大师课程k8s管理运维平台实战k8s管理运维平台实战前端vue后端...

prometheus range_query源码解读和高基数判定依据query_log各阶段统计耗时原理

2021-05-06
阅读 9 分钟
6.1k
在时序数据库中的高基数问题可以看我之前写的文章高基数和prometheus中判定高基数的三种方法今天我们讲解下其中第二种判定方法的range_query 原理并且讲解下query_log统计的原理总结range_query查询过程解析参数设置超时并设置opentracing根据queryEngine初始化query并解析promqlexec函数先设置 ExecTotalTimeexec函数进...

高基数和prometheus中判定高基数的三种方法

2021-05-06
阅读 4 分钟
3.6k
写在最前prometheus判定高基数的三种方法prometheus tsdb的统计接口prometheus 可以根据query_log中的queryPreparationTime来定位prometheus 通过count by 统计什么是高基数 high-cardinality基数广义上是指集合中值的数量在数据库领域,基数是指数据库的特定列或字段中包含的唯一值的数量。时间序列数据集的基数通常由...

别再乱用prometheus联邦了,分享一个multi_remote_read的方案来实现prometheus高可用

2021-04-29
阅读 4 分钟
5.5k
视频教程教程地址前言我看到很多人会这样使用联邦:联邦prometheus 收集多个采集器的数据实在看不下下去了,很多小白还在乱用prometheus的联邦其实很多人是想实现prometheus数据的可用性,数据分片保存,有个统一的查询地方(小白中的联邦prometheus)而且引入m3db等支持集群的tsdb可能比较重具体问题可以看我之前写的文章...

夜莺和prometheus告警流程对比分析,pull模型远胜push模型

2021-04-15
阅读 3 分钟
4.7k
夜莺和prometheus告警流程对比分析prometheus告警流程分析以 sum(rate(coredns_dns_requests_total[1m])) > 100 为例alert和record复用大部分逻辑prometheus根据配置文件中拿到规则解析规则查询本地存储或远端存储(带触发条件),trigger在存储端返回一组当前点结果集,返回多少个对应多少条告警根据内存中的历史数据...

k8s环境中监控不通问题排查思路

2021-04-02
阅读 7 分钟
2.6k
k8s中的监控原理、prometheus采集原理 可以看这个文章k8s监控指标汇总,prometheus采集k8s原理解析k8s-mon项目介绍项目地址[链接]视频介绍[链接]kube-stats-metrics 没数据排查思路 dns问题首先观察k8s-mon-deployment的日志 {代码...} 排查dns,在node上请求coredns 服务 {代码...} 在node上请求 coredns 解析 kube-sta...

m3db资源开销,聚合降采样,查询限制等注意事项

2021-03-24
阅读 5 分钟
3.7k
视频教程教程地址m3db资源开销问题:无需用ssd,也没必要做raid正常情况下m3db 对io要求不高因为和prometheus一样设计时采用了mmap等技术,所以没必要采用ssd和open-falcon/夜莺等采用rrd不同,rrd 单指标单文件,很耗iocpu和内存开销写峰很危险,原因很简单一条新的数据写入的时候,需要申请block,索引等一系列内存,...
封面图

prometheus 两种分位值histogram和summary对比,histogram线性插值法原理说明

2021-02-02
阅读 4 分钟
7.6k
前言prometheus官方文档中对于两种类型的对比说明下面我总结一些对比点对比点histogramsummary查询表达式对比histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))http_request_duration_seconds_summary{quantile="0.95"}所需配置选择合适的buckets选择所需的φ分位数和滑动窗口。其...

prometheus promql 实用举例

2021-01-21
阅读 2 分钟
4.7k
举例:pod状态 kube_pod_status_phase{pod!~"filebeat.*",job="kube-state-metrics", namespace !~"druid",phase=~"Pending|Unknown"}

k8s监控指标汇总,prometheus采集k8s原理解析

2021-01-08
阅读 17 分钟
24.5k
apiserver可以采用tls双向认证,所以需要提供证书 {代码...} prometheus通过 sa,clusterrolebinding来解决token、证书挂载问题sa等配置: prometheus yaml中需要配置对应的saserviceAccountName {代码...}

开源项目: prome_shard :consulwatch+动态分片实现Prometheus采集端高可用

2020-10-11
阅读 3 分钟
2.3k
架构图开源项目地址:项目地址: [链接]项目说明prometheus采集端单点问题采集类型采集机器级别的指标采集k8s基础监控指标采集部署在lb后面的vm业务指标采集部署在pod里的业务指标采集各种中间件的指标 如kafka zk clickhouse等面对如此复杂的采集类型,一般会使用一批采集Prometheus各司其职sd发现问题面对不同的采集来源...

开源项目 : prome-route: 使用反向代理实现prometheus分片

2020-09-10
阅读 2 分钟
1.9k
开源项目地址:项目地址: [链接]PS: 这是一个仅用时半天就写完的项目架构图prometheus HAprometheus本地tsdb性能出色,但是碍于其没有集群版本导致HA较差实现手段注意这些手段都是要数据的统一存储可以通过remote_write 到一个提供HA的tsdb存储中通过联邦收集到一个prometheus里问题来了,搞不定集中式的tsdb集群,或者集...

开源项目: pre_query: 给prometheus 重(heavy_query)查询提速

2020-09-09
阅读 7 分钟
3.4k
顾名思义 就是查询表现出来返回时间较长,对应调用服务端资源较多的查询一般我们定义在1小时内的range_query 响应时间超过3秒则认为较重了

m3db-node oom追踪和内存分配器代码查看

2020-08-13
阅读 3 分钟
2.3k
m3dbnode oomoom时排查内存火焰图: 80G内存bytes_pool_get_on_empty qps 很高db read qps增长 80%node cpu kernel 暴涨看图结论m3dbnode 内存oom过程很短,很剧烈:总时间不超过7分钟内存从27G增长到250G节点sys态cpu暴涨:因为大量的mem_alloca sys_call内存增长曲线和db_read_qps曲线和bytes_pool_get_on_empty曲线高...

从PVC使用率看k8s 监控控制平面指标稳定性规范KEP

2020-08-11
阅读 3 分钟
6.9k
前言kubernetes家大业大,监控纷繁复杂,感兴趣的小伙伴可以看看我之前写的文章从容器监控kube-stats-metrics看k8s众多组件k8s中pv使用率监控说明虽然k8s最擅长的是无状态的pod,不建议有状态的存储型pod上但是总有些使用场景需要,比如statefulset使用的pv那么pv的使用率监控就非常有必要了我们可以使用 kubelet_volume...

prometheus 本地存储解析及其使用的那些"黑科技"

2020-07-15
阅读 13 分钟
4.8k
本文代码基于prometheus 2.19.2分析 基本概念 什么是tsdb {代码...} prometheus 基本概念 sample 数据点 {代码...} sample代表一个数据点 size:16byte: 包含 1个8byte int64时间戳和1个8byte float64 value Label 标签 {代码...} 一对label 比如 job="ec2" Labels 标签组 {代码...} 就是metric 一个指标的所有tag values...

从容器监控kube-stats-metrics看k8s众多组件

2020-07-10
阅读 7 分钟
5.7k
k8s API Server提供了k8s各类资源对象(pod,RC,Service等)的增删改查及watch等HTTP Rest接口,是整个系统的数据总线和数据中心

开源项目:xprober :分布式c/s ping & http框架

2020-06-11
阅读 3 分钟
3.8k
项目地址地址 [链接]架构图需求分析网络监控工具调研多region为一般公司内网架构这个工具能提供网络性能数据监控同时也参考调研了tor维度的pingmesh方案总结key1 其实最主要能看到公有混合云内网所有region两两之间的延迟和丢包率维度落在region而不是tor,即不关心同region内的延迟如果采用单个agent集中向外探测的问题...

开源项目 : dynamic-sharding: 解决pushgateway 高可用HA问题

2020-06-10
阅读 4 分钟
7.2k
k8s教程说明k8s底层原理和源码讲解之精华篇k8s底层原理和源码讲解之进阶篇k8s纯源码解读课程,助力你变成k8s专家k8s-operator和crd实战开发 助你成为k8s专家tekton全流水线实战和pipeline运行原理源码解读prometheus全组件的教程01_prometheus全组件配置使用、底层原理解析、高可用实战02_prometheus-thanos使用和源码解...