企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight
Aquila Insight介绍
Aquila Insight是星环科技推出的一款多模数据平台监控软件,为企业运维团队提供了一套统一、完整、便捷的智能化运维解决方案。通过丰富的仪表盘管理、告警与通知管理、实时和历史查询语句运行分析、计算和存储引擎的统一监控、完整的日志收集过滤与检索等功能,实现高效智能运维的目标,充分保证集群稳定高效的运作。
业务痛点
企业在应对业务部门的扩张以及数据融合创新时,通常会针对不同的项目场景引入不同的数据模型以及大数据产品。这些产品和模型为企业解决了海量多源异构数据的存储管理难题,但与此同时,产品服务的可靠性问题也为企业带来了挑战。服务需要持续高效、稳定、可靠的运作,对于企业运维团队来说需要做到有问题及时发现,资源不够及时扩容,出现故障迅速修复,以防止出现服务器长时间宕机、业务长时间中断、数据丢失等问题。
企业如果采用了大量分布式架构的大数据组件,那么运维人员需要掌握每一款大数据产品的相关知识,极大的增加了企业的运维成本以及运维人员的学习成本。并且由于缺乏统一的运维入口,传统的查询运维难以完成指标数据的可视化,极易缺乏或遗漏关键监测指标。在数据碎片化、监控对象粒度庞大的情况下,自动化监控难以实现,无法保障企业及时发现故障异常并进一步排除业务隐患。
基于多年以来在大数据运维方面积累的丰富经验,星环科技推出的Aquila Insight多模数据平台监控软件具备高安全性、高易用性的特点,可以及时帮助企业发现问题并解决问题,为用户提供平台级大数据系统的交互式运维解决方案,保障产品可靠稳定的高性能运转。
Aquila Insight架构图
产品功能
Aquila Insight将星环全线产品的运维数据集成起来,打通跨产品、跨服务、跨集群的运维窗口,提供一站式自动化的运维分析、完备的功能配置,满足不同的运维场景需求。通过可视化的系统监控平台,运维人员可以对系统负载,平台运行状况等指标进行统一管理与监控。多方面多维度的集群监控、预警、分析以及状态检查机制充分赋予了运维人员解决系统异常的能力,对于潜在的严重问题,Aquila Insight预置的告警通知设置能够及时预警,实现事前预警、事中告警、事后分析的全阶段运维。
全线产品,一站式监控,开箱即用
Aquila Insight预置了大量的运维规则,提供54个预置仪表盘,124条告警规则,用户可以根据自身运维场景来设置不同的运维模块组合,对产品的可用性、性能、业务负载等进行全方位监控。
分布式集群监控
丰富的告警规则设置,全方位监控预警
Aquila Insight基于指标和日志数据进行实时运算,帮助用户及时感知平台健康状态,搭配丰富的告警规则可以满足用户大量场景化的告警预警。
- 审计告警:支持监测安全侵害事件,如越权操作、非法入侵;
- 状态告警:支持对用户活动带来的异常状态告警,如慢查询过多、在线事务过多、连接数过多等;支持对数据库异常状态告警,如锁超时、相关服务不可用等;
- 资源预警:支持对资源情况预警,通过摘要模板,精确显示具体的告警对象,如某服务内存不足、某中间件CPU占用过高等;
用户可以在告警查询页面中方便地管理告警信息,进行故障排查。系统提供基于告警规则,历史告警记录的查询,用户可以更高效的追溯历史事件,进行问题回顾。同时,系统汇集了不同系统来源的告警,将基于不同告警规则生成的告警通知以邮件或者Webhook的形式分派给对应的运维人员,进一步提升告警功能的易用性与告警处理效率。此外,Aquila Insight也支持告警分组,静默,告警抑制等功能,可有效避免告警风暴, 凸显关键告警。
规则定制
日志管理与分析
Aquila Insight预置了平台以及租户级别的日志搜索规则,开箱即用。为了帮助用户更高效的追溯故障发生的上下文并迅速定位故障原因,Aquila Insight支持星环大数据产品的日志收集,导入导出,查询,为用户提供了丰富的筛选条件,如:关键词、参数、上下文等查询方式。并且系统支持审计日志的检索与报表展示,可以使用日志搜索检测安全侵害事件、操作不合规行为以及其他与数据库或SQL相关的问题。平台预置了搜索过滤器,用户可以选择保存搜索条件,便于后续复用搜索。为了提高告警效率,平台还支持一键告警,通过与告警功能联动,用户可以直接根据日志搜索结果进行告警设置。
日志上下文展开
高效的计算引擎监控、SQL监控与告警
Insight Server的可视化页面支持用户查看server以及executor的健康状态以及指标信息,如CPU、内存、GC等情况。除此之外,用户也可以查看实时、历史、每天/每小时的TOP SQL查询,以及根据查询的特征进行实时告警,告警历史查询等等。
SQL查询
运维人员在SQL运行效率慢或卡住的情况时,通常需要通过查看计算引擎的server、executor的jstack来排查此时引擎正在执行什么任务,卡在了哪行代码,定位线程长时间停顿的原因。虽然有一些性能分析工具可以帮助运维人员去排查问题,但是这类工具通常会给用户展示大量的细节信息和数据,需要花费大量时间跟精力来优化可能并不重要的地方。
Insight Server引入了火焰图(Flame Graphs),火焰图以一个全局的视野列出所有可能导致性能瓶颈的调用栈,可以快速帮助运维人员查看函数执行的频繁程度、哪些函数经常阻塞以及分析程序的性能瓶颈等等。
查看或下载执行器的jstack
数据库管理功能
Aquila Insight 支持用户查看当前集群中有哪些类型的数据库和表,更直观的为用户实时展示当前数据库与指定表的统计信息。并且针对部分组件(如ArgoDB,Slipstream、TimeLyre),Aquila Insight 提供完备的监控信息展示与统计,如支持流任务状态查看和管理、任务指标查看、库表信息查看、存储健康状态、读写情况展示、事务与锁的情况等等。
当多个事务都需要对某一资源进行锁定时,默认情况下会发生阻塞。被阻塞的请求会一直等待,直到原来的事务释放相关的锁。因此,监控SQL事务至关重要,通过精准定位到导致阻塞的SQL任务,用户可以有针对性的对其进行监控,从而解决阻塞问题。
如下图所示,Aquila Insight提供给了用户一个可视化的事务监控图,每个方块代表一个PLSQL,其中a指向b,则表示SQL a涉及的事务在等待SQL b的事务。两个橙色的节点表示导致整个SQL事务等待的关键SQL,由于耗时较久因此后面的事务被阻塞,用户仅需针对这两个SQL进行优化,即可解决其他事务阻塞的问题。
SQL事务监控
全栈覆盖 跨级群统一监控运维
在多集群的场景下,如多云, 数据库两地三中心,Aquila Insight支持用户对多个集群进行统一监控运维。通过对接多个数据源,系统能够将多个集群的运维数据汇总到一起,然后进行统一存储,统一分析以及统一展示。
运维数据源管理
操作演示示例
为了方便您进一步了解Aquila Insight,以下从场景角度进行操作视频演示:
演示场景:
- 如何进入SQL监控页面?
- 如何查看正在运行、已完成、失败的SQL?
- 如何知道一个SQL更详细的运行状态?
- 如何查看当前有哪些类型的数据库和表?
- 如何查看系统资源(CPU、内存、网络)使用情况?
- 如何查看更多的指标?
- 如何自定义仪表盘、面板?
https://www.bilibili.com/vide...
此外,近期推出的Aquila Insight 9.1版本做了全新优化并新增了许多用户友好的新功能,例如事件自动处理机制,规则与事件页面支持10+规则触发事件,系统自动执行指定动作例如alarm、kill等等,欢迎您上手操作体验。
规则页面
星环科技数据治理与数据价值评估实践分享
星环科技阅读 340
高效数据运营赋能数字化转型研讨会暨《DataOps 实践手册》新书发布会 预约通道开启!
思否编辑部阅读 3.9k
vivo 超大规模消息中间件实践之路
vivo互联网技术赞 2阅读 538
Flink 批作业的运行时自适应执行管控
ApacheFlink赞 1阅读 623
浙江省体育局上线“体育大脑” 蚂蚁数科提供技术支持
蚂蚁技术赞 1阅读 458
中原银行对金融行业实时数仓的现状与发展趋势思考
ApacheFlink阅读 1.1k
基于 Log 的通用增量 Checkpoint
ApacheFlink阅读 946
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。