Skip to content

AiOps了解快速入门

About 952 wordsAbout 3 min

2025-02-14

背景:

随着行业数字化进入深水区,数字化的系统需求由以前的单体和单工厂建设已经逐渐审计成为全区一体化。随着行业新型数据基础设施的推广和建设,行业数字化系统已经有以前的单体架构转变成“云+中台+微服务”的分布式架构,并且随着行业一体化和工业联网体系的主见铺开,这个行业的架构体系已经升级为云边端统一管理,多级物理环境统一标准运维,并且现在行业的基础设施很多已经基于云原生的技术底座建设,这样众多的变化,给应用系统和业务运维带来了很大的挑战和压力,系统的请求链路变的冗长且复杂,应用系统的依赖服务项成了多服务甚至跨环境的额服务,这个应用系统变成了黑盒,一旦需要进行系统排查和问题的定位的时候,需要协调多系统、多体系的人进行故障定位和协同支持,整个体系耗时。

简要:

接住AI、大数据先进技术促进业务连续性以及业务敏捷性智能化的故障预测、通知、处置的闭环,提升业务连续性,持续改进业务健康状况,支撑行业数字化升级。

以数据为基础,场景为导向,算法为支撑,提升运维管理效率,全覆盖业务领域场景,解决运维工作闭环问题。

建立针对行业场景的、具备行业特性的AiOps,钻研行业深度,以行业场景为支撑,打造最懂行业的AIOps。


awesome-AIOps

什么是AiOps?

DevOps和ITIL如何融合的探讨?

开发和运维融合?

传统 itil

自动化工具

问题变更、发布

软件发布中做到自动化测试、自动化部署,包括基础设施的自动化监控、自动化回滚、自动化恢复

测试报告

手工测试、手工部署、手工恢复

打通从业务市场到运维的通道

业务市场-产品-开发-测试-运维

itil全生命周期架构:

运维发展史:人工运维-> DevOps -> AIOps

  • 初级(人工配置、告警重复、无优先级)
  • 中极(经验配置)
  • 智能

人工配置, 经验配置。

告警重复、告警频次控制。

告警分级

链路追踪、数据处理、机器学习

定时扩容、自动扩容、预测扩容

  • 自动扩容 每一个指标,资源的利用率,根据QPS、平均消耗拟合甲醛和AI模型计算衡量使用量的指标
  • 冗余度:根据压测估算单位服务器承载压力,并根据服务池服务数计算冗余度

预测扩容

  • 时序模型, XGBoost

故障自愈, 单机故障(摘而不修)、集群故障(流量切换)、IDC故障(异地重建)

无法量化就无法治理,服务治理的前提是对各种服务进行指标化、数字化度量。

cubgx通过指标化 + 数字化度量+部署的训练模型,帮助企业运维系统的全自动调度。

cubgx架构:

cubgx源代码公开:github:https://github.com/galaxy-future/cudgx (merics-go)

应用:

告警收敛、根因定位、资源优化、故障自愈

有目共睹

模型的上下文的限制,通过对数据蒸馏、处理传给模型处理。

应用拓扑分析、应用性能可观测

数据对数据处理,运营组、研发组、产品组

低代码平台建设、AiOps平台建设。

云端?边端?

Changelog

Last Updated: View All Changelog
  • feat(wiki): hammeSpoon: 复制出来的文件需要重新生成永链

    On 3/27/25

求求了,快滚去学习!!!

求求了求求了,快去学习吧!

【题单】贪心算法

不知道方向的时候,可以多看看书,书会给你指明下一步该干什么,加油!