您好,欢迎访问专业IT管理知识分享平台

上传文档

当前位置:首页 > 文章列表 > 智能运维发展史及核心技术研究

「流程管理」智能运维发展史及核心技术研究

技术系统的安全稳定运行是企业最重要的工作之一,而运维是保障系统稳定运行的重要手段。

在技术系统转型过程中,传统运维模式面临“安全运行、人力紧缺、远程运维”三大挑战,有必要引入人工智能来辅助甚至部分替代人工决策,提升运维质量和效率。

本文对智能运维技术进行了探索,分析当前智能运维研究的进度及现状,研究如何在运维中引入人工智能,以实现“事前智能预警、事后快速定位、夜间无人值守、远程集中管理”等一系列的智能运维目标,以应对新环境下的三大运维挑战。

一、引言

运维是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使服务处于长期稳定可用的状态。早期的运维工作大部分是由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。

利用工具来实现大规模和批量化的自动化运维,能极大地减少了人力成本,降低了操作风险,提高了运维效率。但是自动化运维的本质依然是人与自动化工具相结合的运维模式,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务。

智能运维(AIOps, Artificial Intelligence for IT Operations)是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。智能运维能快速分析处理海量数据,并得出有效的运维决策,执行自动化脚本以实现对系统的整体运维,能有效运维大规模系统。

自1998年至今,经过20多年的逐步升级和持续优化,登记结算系统在业务功能上已较为完备,形成了全品类、全链条、跨市场的业务系统。

随着沪港通、科创板、沪伦通等创新业务的陆续实施,证券登记结算系统与外部的耦合度逐渐增加,而现有的技术系统已经很难满足不同市场、不同日历、不同品种的互联互通需求。

因此为进一步更好地服务实体经济、满足资本市场双向开放,技术系统必须从专有化向国产化转型,从集中式向开放分布式转型,从单数据中心向多数据中心转型。而在转型发展中,技术系统传统运维模式面临以下三大挑战:

  • 一是安全运行的挑战。我司对技术系统的安全稳定运行要求高,而目前业务功能一般涉及多个系统与应用,所采用的事后处置为主的运维模式,存在异常定位困难、处理效率低等缺陷,这种被动异常响应模式已经不能满足异常快速定位和处理的需求。

  • 二是人力紧缺的挑战。目前的技术系统运维由于工作量大、工作内容重复且枯燥,运维岗位特别是值班岗位的吸引力逐渐降低。运维需求与人力资源紧缺的矛盾,已经成为技术系统发展中无法避免的矛盾。

  • 三是远程运维的挑战。从单数据中心向多数据中心发展过程中,传统的现场运维方式也因数据中心地点偏僻、现场巡检工作繁琐重复等困难而导致运维成本和压力增大,如何实现远程运维来解决数据中心发展的问题。

技术发展中产生的问题必须依靠技术来解决,只有在运维领域引入新技术、新思路、新体系,才能更好地提升运维水平,更好地保障系统安全稳定高效的运行。

当前主流运维技术已从自动化运维向智能运维发展,利用人工智能来辅助甚至部分替代人工决策,可以进一步提升运维质量和效率。

因此,我司开展了智能运维技术的探索,研究如何在运维中引入人工智能,以实现事前智能预警、事后快速定位、夜间无人值守、远程集中管理等一系列的智能运维目标,以应对新环境下的三大运维挑战,进一步解放与发展生产力。

二、智能运维发展及主要技术研究

1、智能运维简介

智能运维(AIOps)是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。

智能运维概念最早由Gartner提出,它是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力。

尽管智能运维是运维领域最新技术,其应用的人工智能产业目前也是朝阳产业,在技术成熟度上仍有待提升,但并不妨碍智能运维所产生的强大生产力。

表1给出了手工运维、自动化运维、智能运维在运维效率、系统可用性、可靠性、学习成本、建设成本、应用范围作了全面的比较。

▲ 表1 三种运维模式的比较

2、智能运维研究与应用现状

当前智能运维研究与应用在国内外各行业中都属于起步阶段,Gartner的报告中也做出预测:智能运维在2020年在一半以上的企业中落地并形成生产力,如下图所示:

尽管如此,智能运维已经成为科研机构研究的热点,并在高利润、低成本的驱动下,互联网公司、大型金融机构、大型IT技术公司走在了智能运维工程应用方面的前列。

1)科研机构

科研机构一向是新技术革命的领头羊。在智能运维研究领域,国内外科研机构不仅有先进的科研成果,也与工业界展开密切合作,从算法层面上支撑了智能运维的落地与发展。

卡内基梅隆大学与Netflix公司合作,在网络视频运维领域提出并应用多种人工智能方法:

  • 利用不同数据分析及统计分析方法,灵活使用可视化、相关分析、信息熵增益等工具,将杂乱无章数据转化为直观清晰信息,从而分析海量数据背后视频体验不佳的规律和瓶颈;

  • 设计了视频传输智能优化方案,可根据客户的网络状态,动态地优化视频传输;

  • 通过决策树模型建立用户参与度的预测模型,指导关键性能指标的优化策略,改善用户的体验质量。


南京大学周志华教授团队专注于机器学习算法的研究,所提出的isolation forest孤立森林算法可用于挖掘异常数据,检测和分析异常。该方法已经在360公司系统运维中用以实时检测异常,腾讯公司也将其用于检测微信中的异常点击。

清华大学NetMan智能运维实验室则专注于异常检测、分析与预测,提出了多种算法和工具。该团队目前已经和交通银行、阿里巴巴、IBM等多家机构开展合作,实现了产学研相结合。

2)互联网行业

阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。通过时间序列分析和机器学习,对未来一段时间的业务指标趋势进行预测。针对业务异常时间,自动调用各类型AP接口实现一键切换,快速恢复业务异常。并针对业务异常事件自动拆解相关维度,逐层剥离定位故障原因。

目前该平台已经在阿里云上成功实践,故障发现准确率、故障发现召回率分别提升到80%和90%,每周节省因为误报而花费的操作时间约为29小时。

百度实现了基于智能流量调度的单机房故障自愈能力,将止损过程划分为统一的感知、决策、执行三个阶段,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力。

京东金融实现了基于网络拓扑的根源告警分析,结合调用链,通过时间相关性、权重、关联规则算法、神经网络算法等,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。

京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。

腾讯在其织云监控平台中建设了基于机器学习的时间序列异常检测方案,在百万条基于时间序列的日志信息中,以少量的时间实现了异常检测。

3)金融行业

交通银行通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储。通过关联分析、建模预测等方式发现日志、告警信息中潜在联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障。

中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,对系统日志、应用日志、监控数据和网络镜像包等全量数据进行集中存放和处理,并在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。

太平洋保险在智能运维方面实现了告警收敛,将多个告警做汇聚合并和主源分析,还开展了云脑项目以实现业务趋势预测和容量管理功能,还开发点点2.0 APP,实现风险监测和智能交互等功能。

阳光保险利用大数据和机器学习,实现了智能巡检、报警聚合、故障自愈及故障避免、自动发版与止损等多项功能。招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。

上海银行张江数据中心启用了智能巡检机器人,对设备运行状态、机房环境、机柜微环境实时监测,保证数据中心状态实时可视、可控及数据的准确性。

4)技术厂商

Splunk公司擅长大数据的搜索与可视化,该公司以splunk平台为基础研发了智能运维管理平台,它将收集到的机器数据转化为有运维价值的见解,让用户能实时了解IT系统与技术构架现状,以便做出决策。

IBM公司认为智能运维的目标是对异常做出预警,在问题暴露前优化校正服务,以避免对业务造成影响。为此,IBM提出了实时大数据分析驱动的新一代智能运维中心解决方案,对事件日志进行上下文历史挖掘分析、周期性规律分析、成对成组出现分析、日志相关与因果分析。

目前该方案目前已在交通银行得到实施与应用。不仅如此,IBM还发布了《金融行业智能运维AIOps实施建议白皮书》。

华为推出了基于大数据平台的FabricInsight数据中心网络智能分析平台。它基于 telemetry,采集全网真实流评估网络质量,进行网络异常流识别和分析,实现风险主动预测。FabricInsight将应用和网络路径关联,能够对端口级问题进行快速定位,还支持百亿数据秒级检索,并实现时延、路径等多维度历史数据可视。

在智能机器人巡检方面,深圳朗驰欣创研发的室内智能巡检机器人,可实现对数据机房7*24小时不间断往复式巡检任务,对数据中心环境和设备进行智能检测,对电源、空调、服务器等指示灯和仪表状态进行自主巡视和判断分析。其产品分为轨道式巡检机器人和轮式巡检机器人,目前已应用于国家电网数据中心和IDC数据中心。

浙江国自与阿里巴巴联合研发的高精度数据中心智能巡检机器人“天巡”于2017年云栖大会正式发布,它可以协助工作人员对数据中心环境进行日常巡检、远程任务调用、随工监管和安防管理工作。

目前“天巡”已部署应用于阿里巴巴张北数据中心,根据实际应用看,“天巡”不仅实现全天24小时巡检,而且接替了运维人员以往30%的重复性工作,在大幅提升工作效率的同时,可以让工作人员有时间去做创造性的工作。

京东金融于2018年正式发布巡检机器人,可实现自动导航与避障、自主充电、环境温湿度检测、设备编码识别、设备指示灯识别、设备故障码识别、环境异物识别、人员身份验证、引导和跟随等功能,并可通过实时数据传输,在巡检管理后台进行远程监测和结果查询。

目前巡检机器人已部署于京东金融数据中心,在6.18期间已经受了严苛的实战检验,提升了数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,与传统人工巡检方式相比,效率更高,成本更低。

京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。

京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。

3、核心技术研究

智能运维是基于机器学习等人工智能算法,分析挖掘运维大数据,并利用自动化工具实施运维决策的过程。因此,智能运维的技术主要组成是运维大数据平台、智能分析决策组件、自动化工具,如下图所示:

运维大数据平台如同眼一样,能采集、处理、存储、展示各种运维数据。智能分析决策组件如同大脑,它以眼睛感知到的数据作为输入,作出实时的运维决策,从而驱动自动化工具实施操作。自动化工具如同手一样,能根据运维决策,实施具体的运维操作,如重启、回滚、扩缩容等。

1)运维大数据平台

① 运维大数据

运维大数据平台用于对各种运维数据进行采集、处理、存储、展示的统一平台。运维数据包含监控数据、日志数据、配置信息等,其详细组成如下表所示:

▲ 表2 运维大数据组成

大数据平台所存储的数据,按照所更新的频率可分为静态数据和动态数据。静态数据主要包含CMDB数据、变更管理数据、流程管理数据、平台配置信息数据等。

此类数据一般情况下在一定时间范围内是固定不变,主要是为动态数据分析提供基础的配置信息。对此类数据的查询操作多,增删改操作较少。

当智能运维平台启动时,部分静态数据可直接加载到内存数据库中,因此静态数据一般保存在结构化数据库中或者Hive平台。

动态数据主要包含各类监控指标数据、日志数据以及第三方扩展应用所产生的数据。此类数据一般是实时生成并被获取,并作为基础数据,需要通过数据清洗转换成可使用的样本数据。

动态数据一般按不同的使用场景保存在不同大数据组件中,如用于分析的数据保存在Hive数据库,用于检索的日志数据可保存在ES(即ElasticSearch)中。

② 运维大数据平台

参考大数据平台的架构,运维大数据平台由数据采集层、数据存储层、数据分析建模层、展示层等组成,其逻辑架构如下图所示。

数据采集处理层是整个大数据平台的数据来源,所接入的运维数据类型包括日志数据、性能指标数据、网络抓包数据、用户行为数据、告警数据、配置管理数据、运维流程类数据等,其格式包括系统中的结构化数据、半/非结构化数据、以及实时流数据。

采集方式可分为代理采集和无代理采集,其中代理采集一般为拉的方式,在采集端部署agent来采集,无代理采集一般利用logstash、flume等组件直接获取运维数据。在该层也会对数据做预处理,使其能满足定义的格式,用以在数据存储层落地。

数据存储层是用于落地运维数据,可根据不同的数据类型、数据消费和使用场景,选择不同的数据存储方式。

  • 如用于实时全文检索、分词搜索的数据可选用ES;

  • 用于以时间维度进行查询分析的数据,如时间序列数据,可采用rrdtool、graphite、influxdb等时序数据库;

  • 关系类数据可采用图数据库;

  • 用于长期存储、离线挖掘、数据仓库等数据可采用Hadoop、Spark等。

数据计算层提供实时和离线计算框架,离线计算是针对存储的历史数据进行批量分析与计算,可用于大数据量的离线模型训练和计算,如告警关联关系挖掘、趋势预测计算、容量预测模型计算等。

实时计算是对流处理中实时数据进行在线计算,包括数据查询、预处理、统计分析、异常数据实时监测。目前主流的流计算框架包括Spark Streaming、Kafka Streaming、Flink、Storm等。

展示层为用户提供可视化方式展示时序指标数据,并提供统一的告警监控配置和监控告警通知功能,还可以为业务应用提供分析展示功能,帮助业务人员实时了解业务应用状态。目前主流的开源框架有kibana、Graphic等。

2)智能分析决策组件

在智能运维平台中,如果将大数据运维平台比喻成“眼睛”,用于直接感知运维数据,自动化工具比喻成“手”,用于直接处理运维操作,那么智能运维组件相当于“大脑”功能,用于对运维事件进行分析、处理,并作出决策。

智能运维组件是利用人工智能算法,根据具体的运维场景、业务规则或专家经验等构建的组件,类似于程序中的API或公共库,它具有可重用、可演进、可了解的特性。智能运维组件按照功能类型可分为两大类,分别是运维知识图谱类和动态决策类。

① 运维知识图谱类组件

运维知识图谱类的组件是通过多种算法挖掘运维历史数据,从而得出运维主体各类特性画像和规律,以及运维主体之间的关系,形成运维知识图谱。

暂时没有评论,评论一个吧?

您需要登录后才能评论 , 去登录

Powered by DS文库

Copyright © 专业IT管理知识分享平台 All Rights Reserved. 鄂ICP备19005274号-1
×
保存成功