当前位置：首页 > 网站优化 >

分布式主动感知在智能运维中如何带来高效故障诊断与优化？

GG网络技术分享 2025-11-23 18:04 19

一、运维的发展

哇哈哈，运维这个词听起来好高大上哦！想象一下就像超级英雄一样，维护着整个网络的正常运作。下面啊，我要给大家讲讲运维是怎么一步步变得这么厉害的。

先说说 kan这张图，这里有hen多信息，比如工作信息、组织信息、模拟监控数据、动态监测配置，哎呀，太多了不一一说了，太魔幻了。。

然后呢， DevOps这个概念，听起来好像是个超级英雄团队，他们负责交付2C产品，就是那些面向消费者的产品。但是对于像宜信这样的公司，不是我唱反调... 我们有hen多内部系统，需要快速响应用户的问题，还需要快速沉淀有价值的信息，光靠一个运维管理架构还不够哦。

还有，单指标异常检测，就像是给系统Zuo个健康检查，kankan有没有哪里不舒服的。

一阵见血。我们啊，从自服务入口开始，然后连接到持续集成和持续发布平台，利用自动化工具，把线上系统数据收集起来包括指标、跟踪、日志等，这就是监控的部分。

哇，主动感知在人工智Neng领域好像也hen流行哦，拭目以待。它包括hen多应用，比如根因分析、日志异常检测等等。

别怕... 主动感知的动作，就像是给每个参与者一个任务，让他们主动获取环境中的数据，然后根据数据发现新信息。

从运营到运维，左边geng偏向于ITSM的概念，右边geng偏向于DevOps的概念。从上到下是从入口到施行，本质上...。

杀疯了！全网Agent会嗅探风险端口、扫描攻击，并反馈风险的细节扫描数据。

宜信的IT运营架构分为四部分，包括趋势分析、成本分析、利用率分析和统计，我心态崩了。。

通俗主动感知就像是每个参与者dou变成了一个小侦探，他们主动获取数据，然后分析，再说说提供有价值的信息。

二、什么是智Neng运维

智Neng运维啊，就像是给运维工作加上了一个智Neng大脑，让它们变得geng加聪明和高效。

分布式主动感知的收益啊，就像是给运维工作加了双翅膀，让它们飞得geng高geng远，我坚信...。

AIOps引入分布式主动感知，就像是给运维工作加了加速器，坦白说... 让它们变得geng快geng强大。

因为软件研发行业和技术的发展，运维的工作也变得越来越丰富，往白了说...。

运维如何使用数据/智Neng中台的数据和应用呢？我们建立一个通用的管道，把运维产生的有价值的数据传输到数据/智Neng中台，整起来。数据/智Neng中台通过对这些数据进行分析，并基于运维需要的场景反馈智Neng应用。

奥利给！我们的业务运行这个IT环境就是承载业务的IT，包括数据中心、服务器、各种系统、三方应用、网络用户的设备等。

因为云平台的建设和微服务的发展， hen多部分运维人员观察不到，再加上出于投入产出比的考虑，一些部分我们不会去观察，所以呢，其实吧运维人员Neng够观察到的IT远远小于真正承载业务的IT。

根因分析、服务降级、业务增长，这些dou是运维需要面对的挑战。

智Neng手机，主要体现在手机的GPS、摄像头，Ke以感知环境变化。直接作用并影响到人。

佛系。 BMC给了AIOps定义是：服务拓扑不断增长。

整起来。有主动行为的主动感知，在真正获取环境数据时只是粗略获得一些内网中机器的端口，Ru果发现有端口是凶险的，就会对这些端口进行细致的探测。

故障预测、成本分析，这些dou是运维需要关注的问题。

因为企业IT系统越来越多地引入运维，且所有业务dou变成系统形式在线上运行，运维工作的重要性越来越高，我晕... 但一边带来的是运维和研发、业务人员工作中的沟通壁垒。

这时就衍生出了一些标准，其中Zui主要的是ITSM，吃瓜。。

ITSM的目标是把日常所有的运维工作，包括流程、信息管理、风险控制等，通过系统建设和标准化固定下来像流水线一样，人员只需要按照标准参与即可，蚌埠住了！。

前文提到运维中台和数据/智Neng中台之间有一个通用管道，运维中台负责采集所有数据，进行简单加工，我好了。并传输给数据/智Neng中台，智Neng中台分析处理数据并反馈数据及智Neng应用给运维中台。

geng丰富的画像和拓扑，就像是给运维工作加上了一双慧眼，提到这个... 让它们Neng够kan到geng多。

企业数字化使得运维智Neng化转型成为必然宜信我直接好家伙。积极推动 AIOps 在科技金融企业的落地实践。

本文探索 AIOps 落地的一种形式：和根因分析。

自然语言处理，就像是给运维工作加上了一个翻译官，让它们Neng够geng好地理解人类的语言，痛并快乐着。。

运维的目标是保障质量及系统的稳定性。

也就是说要保障业务和系统7*24小时在线上稳定运行，为用户提供流畅舒适的体验。

为实现这个目标，运维的相关工作包括：geng有价值的监控数据、规则、全网Agent等等，太虐了。。

Ru果将故障放到ITSM部分进行分析，就Neng让问题得到geng根本的解决。

抄近道。发现故障后通过请求管理把这件事告诉后台人员，后台人员kan到请求后将故障升级为“事件”并提交给研发人员，研发人员分析得知引发故障的原因是手机号触发了风险控制平台，而风险控制平台由于刚刚上线所以状态码的解释并不充分，研发人员将平台关闭，故障处理完成，一边将该“事件”升级成“问题”。

研发和产品人员对该问题分析后认为需要变geng相关服务，提供geng细的状态码和geng清晰的错误提示，于是将“问题”提交成“需求”，搞起来。。

到头来“需求”完成，“问题”解决，之后类似的情况也不会再发生。

知识图谱，就像是给运维工作加上了一个大脑，让它们Neng够geng好地理解和处理信息。

智Neng施行，就像是给运维工作加上了一个超级助手，让它们Neng够geng加高效地完成任务。

因为公司规模的不断壮大，投入产出比也越来越被重视。

运维的再说一个一个价值在于降低成本。

主要体现为：成本分析、利用率分析、统计等等。

智Neng中台和应用。

主动感知系统包括全网Agent、业务Agent、网络Agent、应用Agent，这些dou是我们的感知器。

我们都曾是... Ru果大家了解AI，就会发现这其实就是一个AI智Neng体，包括从Sensing到Thinking到Acting，即感知到思考到施行的过程。

Active Perception is where an agents' behaviors are selected in order to increase information content derived from flow of sensor data obtained by those behaviors in environment in question. ——Wikipedia，拭目以待。

嗐... 因为互联网大爆发，服务交付模型越来越多，用户对互联网和IT的要求越来越高，ITSM的缺点也越来越明显，主要表现为时间过长、成本过高，不Neng适应快速多变的需求。

于是从工程或运维的角度自发出现了一种文化：DevOps， DevOps强调运维、研发及QA工程师工作的高度融合，要求运维从工程交付的角度不断迭代，这玩意儿...。

如图所示是智Neng问答/施行的案例，用户通过服务台的会话窗口提出问题，这些问题以请求的方式发送到问答后台，妥妥的！后台利用搜索引擎和知识图谱的数据自动化反馈信息，包括问答、动作施行等。

Wikipedia对主动感知的定义如下：

歇了吧... 机器人，机器人怎么观察环境、怎么查kan边缘信息、怎么识别物体。

因为行业对IT运维要求的不断提高，无论是AIOps还是ChatOps，dou面临一个严重的问题：人处理不过来了，格局小了。。

从工程角度来kan，运维面临的现状是异构性非常强，需要引入三方应用和各种各样的设备，交付模式也越来越多，运维复杂度出现指数级增长，干就完了！。

全网Agent从网络中获取并反馈所有职场设备及其分布情况。

服务规模的增长直接导致服务器量及网络量的增长，随之而来的是网络拓扑的增长。

上图展示的是网络感知模型，我们先说说进行建模，建模的点，也就是网络的参与者，绝绝子！即每个交换机，并实时监测和扫描网络内部所有服务器。

你没事吧？通过这个模型Ke以直观且实时kan到异常细节数据，保证网络质量。

容量规划：规划每年在IT运维层面投入多少人员和资源，我给跪了。。

搞起来。上图底部三张小图分别表示2016、 2017、2018年的AIOps架构演进，dou是围绕Machine Learning和Big Data来建设的。

你猜怎么着？机器学习：数据量太大，人工的简单分析远远不够，需要它自己产生智Neng，这是机器学习的价值。

主动感知的建模涉及到本地建模和全局建模。

本地建模只需要关注IT参与者是什么比如一个职场、一个主机；全局建模需要考虑全国有多少个职场、何苦呢？ dou分布在哪里、如何将它们联动起来。

数据/智Neng中台，为其他业务和平台提供统一的可复用的数据和智Neng服务。

下面我们通过一个实例来kanITSM的价值点。

为解决上述问题， Gartner适时提出了“AIOps”的概念，这里的“AI”代表的是人工智Neng，通过机器人的参与将人工智Neng技术体系带入到运维的各个环节，帮助解决运维问题，运维发展也由此进入智Neng化阶段，哭笑不得。。

不是我唱反调... 智Neng平台，包括NLP分析、根因分析、趋势预测、异常检测等，产生两个模型：知识图谱和搜索引擎。

稳了！这两个模型应用于运维中台的问答后台、编排管理和监控系统中。

系统出现一个故障：业务人员在提交一个用户的手机号时报错，雪糕刺客。提示系统出现故障请联系开发人员。

Ru果是在DevOps领域处理这个问题就hen简单，把故障报给研发，研发就给解决了，吃瓜。。

差不多得了... 但这样处理，下次可Neng还会出现同样的问题。

三、宜信智Neng运维实践

AIOps refers to multi-layered technology platforms that automate and enhance IT operations by using analytics and machine learning to a 图啥呢？ nalyze big data collected from various IT operations tools and devices, in order to automatically spot and react to issues in real time.

我们通过自有系统将所有数据收集起来通过统一管道传送到实时分析平台，对数据进行后期加工，包括相关运算，到头来数据会分类存储到数据中台的数据库中，乱弹琴。比如关系、指标、文档/日志型数据会存储在ElasticSearch中、结构化数据会存储在Hive中，其他历史数据会存储在HDFS中。

根因分析、异常检测、大数据分析，这些dou是我们关注的问题，精神内耗。。

智Neng问答，以前每次变geng操作dou需要向运维提出要求，现在这些职Neng全部被承接下来变成一个智Neng平台，挺好。日常运维的工作Ke以通过智Neng平台或机器人直接完成。

不是我唱反调... 通过对真实 IT 环境的参与者建立模型，有目的的获取相关 IT 数据，并基于获取到的数据持续优化获取的数据和方法，以实现对真实 IT 实时完整的监控。

等着瞧。上图所示是一个比较典型的AIOps平台架构。

上图展示了网络感知的示例。

上图所示是运维管理架构。

目前的AIOps研究Zui多的是KPIs，将日志等各种数据，，生成对应的算法/模型，将这些算法/模型应用到监控系统中，就是监控报警部分，我裂开了。。

监控报警后来啊会展示到展板上，通知用户。

动态扩容、弹性调度，这些dou是我们需要关注的问题。

除了上述应用以外还有主机/应用/业务感知等等，何苦呢？。

用一个例子来细化什么是分布式主动感知。

应用感知，根据运行状态采集密度和方法。

说实话... 弹性调度：如何调度和分配资源，实现资源的充分利用。

主机感知。出现异常时异常时感知反馈进程、IO、网络 Dump 细节信息，盘它。。

只是业务规模增长反映到运维的复杂度增长上Zui少体现在三个层面：，CPU你。

抓到重点了。主动感知的数据类型包括画像数据、参与者与参与者之间的关联关系、主动筛选和主动行为的细节捕捉、定位跟踪等。

上图展示了一个比较典型的主动感知流程，重点来kan感知部分。

感知器从环境中通过情景感知、情景理解和预见的方式去感知环境，换言之... 产生一个决策，决策产生一个动作，动作反馈到感知。

有主动筛选的被动感知，比如网卡流量数据dou是实时监控的，但我并不会把没耳听。所有数据dou收集起来只有在数据陡增或出现异常时才会收集，这就是主动筛选。

应用感知，包括主动业务异常捕捉和上报。

趋势预测：主要体现在成本部分， Neng够通过人工智Neng的方式预测出未来的增长和变化，我个人认为... geng好地指导决策。

异常检测

宜信正在落地“中台化战略”，将可复用的技术集中到技术中台、数据/智Neng中台、运维中台，统一提供服务，节约了人力和资源，提高需求响应速度。

我们用分布式主动感知的方法，先说说建立模型，即职场网络。

在职场放一个Agent，主要原因是职场分布在全国各地，不如... 本身是全网的，所以呢称之为全网Agent。

感知的内容包括出口有哪些；网络、身份识别；这个网络有多大；边缘探测；还包括内部一系列的统计数据，正宗。一边还会Zuo内部内网的风险监测，甚至会通过模拟数据、诱导攻击来发现内网是否存在平安隐患。

传统的监控方式是被动的，通过被动采集是不可Neng采集到所有数据的，无法保证数据的真实完整，也是没谁了。。

是不是？ Ru果Neng够对所有的IT参与者进行建模，通过模型去感知真正参与者的身份什么样的、有哪些数据，就Ke以采集到geng加实时和完整的数据。

知识图谱

你看啊... 利用率分析：利用率分析包括动态和静态两个方面。

运维中的智Neng场景如上图所示。

ITOM把所有的Operation线上化、自动化后发现IT运维所产生的大量数据是非常有意义的，特别是对于企业数字化而言，这些数据经过加工分析，Ke以对日常业务产生价值。

于是Gartner提出了一个新的标准“ITOA”。ITOA强调IT数据的价值，提出对IT运维分析的诉求，但没说明这个数据Neng干什么。

最后说一句。 hen快Gartner就将ITOA演化成“AIOps”。这时AIOps中的“AI”是指“Algorithm”，强调的是数据分析本身产生的价值，包括来解决线上故障发现、日常交互等运维问题。

简单就是引入多层平台，使用大数据分析和机器学习等方法，加强IT运维自动化的Neng力，我天...。

AIOps涉及的技术、场景和算法如图所示。

成dou网站建设公司_创新互联，为您提供外贸建站、面包屑导航、网站策划、网站内链、域名注册、App开发

我们Ke以通过网格数据加上职场身份给不同 Agent加上不同的监测模拟配置，由Agent发起模拟监测的数据，雪糕刺客。。

当发现异常时Ke以从全网获取geng详细的拓扑网络监测和密集系统检测数据，太水了。。

多维指标异常检测：指标和指标之间是有关系的，通过比如聚类的一些操作Neng够检查出geng多异常。

如图所示，横坐标代表服务规模。

别怕... 公司业务不断增长，服务规模也相应增长，此处我们简单理解为这是一个线性的变化，不考虑业务的暴增。

路网监控，路网识别，包括主动感知车速变化，判断行驶的车辆是否超速。

重点介绍一下编排规则。

最终的最终。我们用的编排工具是StackStrom，我们把自动化的每个动作dou抽象成一个原子，比如重启服务、重启机器、修改配置，这些atom通过StackStrom建立成一个个的工作流，这些工作流是我们有经验的运维专家建立的一个geng高级抽象、geng语义化的模型。

比如我想发布一个系统，包括扩容机器、无缝切换、涉及前端负载均衡的调整、 YYDS... 后端应用的调整，这些dou会是编排规则。

勇敢一点... 主动感知的方法有两种：基于规则和基于智Neng算法。

基于规则的方法是目前使用Zui多的。

居于中心的是技术中台，真正承载业务。

技术中台沿用了云平台的概念，从底层的物理环境开始，包括IaaS、PaaS、saas，这里的saas其实吧是一种中台的概念，将通用性的系统软件沉淀到中台上，统一为业务系统提供服务，放心去做...。

采集的数据形式包括动态和静态两种：动态数据包括业务、应用、链路、技术设施、全网、日志数据等；静态数据包括配置、拓扑、工单数据等，闹笑话。。

全网感知的背景：宜信在全国各地有hen多职场，这些职场dou是重要的参与者，每个职场里有hen多业务人员在使用业务系统，需要对这些职场进行监控。

上图所示为数据采集和处理的架构。

底层是所有数据的来源，我们把大量数据收集起来平台。

算法平台包括三部分，先说说是基于规则和模式进行简单的分类，然后，再说说通过机器学习和AI的方式影响Operation，让自动化运行起来，闹乌龙。。

手工阶段比较好理解，研发人员交付一个系统，运维人员通过手工施行操作保障这个系统正常运行。

此阶段的运维工作没有什么标准可言。

统计

自动驾驶， Ru果将现实中获取的所有图像数据dou交给一个中心去处理，这个信息量和计算量是非常大的，闹笑话。目前的芯片还不Neng满足这样的体量处理。

我们的方式是在探知环境数据的时候感知变化，获取变化数据。

一边从企业IT管理或运营诉求出发也要解决快速演进的问题，栓Q了... 于是演化出了标准ITOM。

ITOM和ITSMhen像，区别是把“S”改成“O”，即把Operation本身及其带来的各种自动化工具纳入模型中，一言难尽。包括主机、运营、发布系统等等。

早期的运维工作比较简单，一般是先由系统集成工程师及研发工程师研发完项目后交付出来再由负责运维工作的人员从后台Zuo一些操作，保证系统正常运行，说起来...

标签： 分布式主动感知在智能运维中的实践

网站优化

分布式主动感知在智能运维中如何带来高效故障诊断与优化？

一、运维的发展

二、什么是智Neng运维

三、宜信智Neng运维实践

为您推荐

提交需求或反馈

产品中心

H5单页免费源码

免费源码

联系我们

QQ在线客服

关注微信

网站优化

分布式主动感知在智能运维中如何带来高效故障诊断与优化？

一、运维的发展

二、 什么是智Neng运维

三、 宜信智Neng运维实践

为您推荐

提交需求或反馈

产品中心

H5单页免费源码

免费源码

联系我们

QQ在线客服

关注微信

二、什么是智Neng运维

三、宜信智Neng运维实践