一个单点超过阈值的报警。当数据来回抖动时,就会产生大量无效报警。常见方法就是通过filter来解决,比如设置为连续5个时刻都超过阈值才报警,但这种方法太过僵硬,中间只要有一个点回到阈值范围内就不报。

     我们采用的是更加柔性的累积法:一段时间窗口内数据的均值超过阈值触发才报警。这样不但能够滤除毛刺,还考虑了原始数据的累计效应。

   单点恒定阈值: 单点抖动>filter

累计恒定阈值,考虑累积量AIOps的第四方物流智能运维辅助研究-LMLPHP

(2)场景二:数据的长期波动幅度较大,但正常情况下短期的波动幅度较小,体现在图像上是一根比较光滑的曲线,不应该有突然性的上涨或者下跌。典型的场景包括第四方物流信息平台的订单、流水。这类场景监控的主要思想就是环比附近的数据,检查是否存在突然的大幅上涨或下跌。

    场景二要解决的是突升突降的问题,我们求取数据最近两个窗口的均值变化比例(见上图公式),将原始数据转换到了变化比例空间(r空间),在r空间上设置阈值就可以检测出数据的突升或突降。突变的含义是发生了均值漂移。

空间转换AIOps的第四方物流智能运维辅助研究-LMLPHP

AIOps的第四方物流智能运维辅助研究-LMLPHP

(3)场景三:数据有规律地周期性波动,比如广告收入或搜索流量等。检测这类数据的方法是与历史数据作同比,从而发现异常。

      场景三中的数据有显著的周期性,计算历史上相同时间窗口内数据的均值和标准差,然后计算当前点的z-score值,即当前点的值减去均值之后再除以标准差。逐点计算z值可以把原始数据转换到另外一个空间(z空间),在z空间设置阈值就可以发现这类异常了。比如左下的小图里蓝色曲线是当前的数据,红色和绿色的曲线是历史同时刻数据。如果要检测图中红色圆圈的部分是否异常,我们以历史数据(红色方块内的数据)为基准计算均值和标准差。右下的小图展示了蓝色曲线在z空间的形态,如果取值位于红色阈值线的下方,即可报警。

    第四方物流信息平台采用传统的ARIMA或者指数平滑的方法很难达到比较好的效果,因为他们很难捕捉到以前从未出现过的情况。相反,神经网络模型由于输入的是非线性方程,可以处理更复杂的时间序列。GARCH模型回归模型。除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测。

    我们根据自相关系数来获得该段时间内发送波动的监控项。一起发生波动的项可能非常多,通过求曲线斜率的方法来获得各个波动项的波动剧烈程度,并按照波动剧烈程度排序。利用均值波动法获得波动持续的时间。在综合考虑波动剧烈程度和持续时间后,我们可以给每个波动项赋予一定的权值,并由此得出正关联和负关联的项。

    现实场景中,单纯依靠当前的数据来得到相关联的项可能不太准确,这时候我们就需要一个自学习的关联分析系统,通过以前的案例和人工经验的加入,该模型得到不断地修正和补充,因而会获得比较好的效果。

3.2.1 4PL异常检测研究

     异常检测(Anomaly_Detection)在统计学领域通常被称为离群点检测。异常检测是保障网络安全的重要环节,传统方法依赖高质量的纯净数据集完成正常行为轮廓的建立,然而在实际应用中,纯净数据集难以获取,从原始数据集中挑选和标记数据又费时费力,因此研宄利用较小标记代价提高异常检测模型的性能具有重要意义。

     第四方物流信息平台运维系统中常见的两大类监控数据源是:指标和文本,前者通常是时序数据,即是包含指标采集时间和对应指标的值,后者通常是板结构化文本格式,如程序日志,Tracing等。随着系统规模的变大,复杂度的提高,监控覆盖的完善,监控数据量越来越大,运维人员无法从海量数据中发现异常,智能化的异常检测就是通过AI算法,自动,实时,准确地从监控数据中发现异常,为后续的诊断,自愈提供基础。自愈提供基础。

     异常检测的常见任务包括对数据源的异常检测,保证数据质量,以及对指标和文本的异常检测。

     数据源的异常检测:数据源会因为一些不可避免的原因存在一些异常数据,这些异常数据占比虽然很低,但是往往会引起整个指标统计值的变动,使得统计结果偏离用户真实体验,需要第四方物流智能运维平台自动,实时的动态设置阈值,去除数据源中的异常数据干扰,并能区分系统真正发现异常时候的故障数据和数据源本身的异常数据。

     指标的异常检测:包括单指标异常检测及多指标异常检测,其中,单指标异常检测;时间序列的异常检测时发现问题的核心关节,传统的静态阈值检测为主的方式,阈值太高,漏洞告警多,质量隐患难以发现,阈值太低,告警太多引发告警风暴,干扰业务运维人员的判断。

     第四方物流信息智能运维平台通过机器学习算法结合人工标注的结果,实现自动学习阈值,自动调参,提高告警的精度和召回率,大幅度降低人工配置成本,其中,多指标异常检测:有些孤立指标来看可能并没有异常,但是综合多个指标来看,可能就是异常的,有些单指标表现就是异常的,但是综合多个指标来看可能又是正常的,第四方物流信息平台能够综合多个指标评判系统指标异常,提高告警的准确性。

      文本异常检验:文本日志是在特点条件下触发生成的,并遵循一定的模板即半结构文本。传统的日志检测的方式有两种:1根据日志级别(如Info,Warning,Critical)进行报警,但是由于其设定不准确,或不满足实际需要,导致准确性差;2通过设置规则,匹配日志中特定字符串进行报警,但该方法依赖人工经验,且只能已知和确定模式的异常。第四方物流信息平台通过自然语言处理,聚类,频繁模式挖掘等手段。自动识别日志出现的反常模式:结合人工反馈和标注,不断进行优化,完善。

    在实际的运维场景中,构建一个异常检测系统往往需要两个角色共同参与:领域专家和算法开发人员,可以通过观察KPI曲线,判断KPI曲线是否出现异常;算法开发人员负责构建异常检测系统,他们熟悉异常检测器(算法),但是实际中有各种不同类型的KPI曲线需要维护,所以需要为不同类型的KPI曲线选择合适的异常检测器以及合适的算法参数。

    有许多的异常检测算法,主要有以下几种异常检测方法:

(1)基于模型的技术:许多异常检测技术首先建立一个数据模型,异常是那些同模型不能完美拟合的对象。例如,数据分布的模型可以通过估计概率分布的参数来创建。如果一个对象不服从该分布,则认为他是一个异常。

(2)基于邻近度的技术:通常可以在对象之间定义邻近性度量,异常对象是那些远离大部分其他对象的对象。当数据能够以二维或者三维散布图呈现时,可以从视觉上检测出基于距离的离群点。

(3)基于密度的技术:对象的密度估计可以相对直接计算,特别是当对象之间存在邻近性度量。低密度区域中的对象相对远离近邻,可能被看做为异常。

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

 

     异常检测需要监控的业务繁多,及时发现这些业务请求数、拒绝数、响应时间、流水和订单等数据的异常波动,是业务稳定性的重要保证。这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征。从上图的三幅曲线图可以看出:

     第一幅曲线图中有蓝、绿两根曲线,分别代表当前时刻数据和上周同一时刻的数据。蓝色曲线几乎完全覆盖了绿色曲线,说明数据有规整的周期特性。

    第二幅曲线图中,紫色曲线是当前时刻数据,蓝色曲线是上一周的数据。可以看出:数据有一定的周期性,但又不如第一幅图那么规整。

    第三幅曲线图中的数据大致平稳,在某些时段出现了异常上涨。

所以,我们的异常检测系统面临两个挑战:一是数据规模大---总共有百万量级的指标;二是曲线的特征差异明显,监控难度大。

算法选择以后,我们需要给每种算法自动配置参数。首先,介绍恒定阈值的自动参数配置。如左下小图中的一段数据,直观来说红色区域的数值因为很罕见所以一般会被认为是有异常。通过估算这些罕见数据出现的概率,即可确定曲线的阈值。把数据看作是一组独立同分布的随机变量的值,我们可以使用ECDF(经验累积概率分布曲线)来估计随机变量的概率分布。我们通过ECDF把配置阈值转换成了配置经验故障概率。尽管不同曲线的阈值不一样,但曲线的经验故障概率常常是一致的。

    实际使用中,因为历史数据样本有限,ECDF与真实CDF有一定差距,直接使用容易有较多误报,我们使用了补偿系数解决这个问题。

3.3 4PL趋势预测研究

     第四方物流信息平台往往有很多趋势预测的地方,例如CPU,磁盘,io以及订单流水等。一般上趋势预测法又称趋势分析法。是指自变量为时间,因变量为时间的函数的模式。具体又包括:趋势平均法、指数平滑法、直线趋势法、非直线趋势法。趋势预测法的主要优点是考虑时间序列发展趋势,使预测结果能更好地符合实际。根据对准确程度要求不同,可选择一次或二次移动平均值来进行预测。下面选取了两种趋势预测方法。

3.3.1 Arima/arma

      ARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。

     所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。

先解释一下差分: 假设y表示t时刻的Y的差分。

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

ARIMA的预测模型可以表示为:

AIOps的第四方物流智能运维辅助研究-LMLPHP

其中,ϕ表示AR的系数,θ表示MA的系数其中,ϕ表示AR的系数,θ表示MA的系数。

下面我们选取了

一些具有周期性(7天)的某地区物流订单测试数据,通过ARIMA模型做预测。

  1. 获取被观测系统时间序列数据;
  2. 对数据绘图,观测是否为平稳时间序列;对于非平稳时间序列要先进行d阶差分运算,化为平稳时间序列;
  3. 经过第二步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF ,通过对自相关图和偏自相关图的分析,得到最佳的阶层 p 和阶数 q
  4. 由以上得到的d、q、pd、q、p ,得到ARIMA模型。然后开始对得到的模型进行模型检验。

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

 

                      图 一次差分和二次差分时间序列图

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

 

                                     图acf 和pacf  

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

        图   残差做自相关图

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

                                           图 模型预测

 

3.3.2 FBprophet

    prophet的整体框架,整个过程分为四部分:Modeling、Forecast Evaluation、Surface Problems以及Visually Inspect Forecasts。从整体上看,这是一个循环结构,而这个结构又可以根据虚线分为分析师操纵部分与自动化部分,因此,整个过程就是分析师与自动化过程相结合的循环体系,也是一种将问题背景知识与统计分析融合起来的过程,这种结合大大的增加了模型的适用范围,提高了模型的准确性。

AIOps的第四方物流智能运维辅助研究-LMLPHP

按照上述的四个部分,prophet的预测过程为:

(1)建立时间序列模型。分析师根据预测问题的背景选择一个合适的模型。

(2)模型评估。根据模型对历史数据进行仿真,在模型的参数不确定的情况下,我们可以进行多种尝试,并根据对应的仿真效果评估哪种模型更适合。

(3)呈现问题。如果尝试了多种参数后,模型的整体表现依然不理想,这个时候可以将误差较大的潜在原因呈现给分析师。

(4)以可视化的方式反馈整个预测结果。当问题反馈给分析师后,分析师考虑是否进一步调整和构建模型。

 

      Prophet适用于有如下特征的业务问题:有至少几个月(最好是一年)的每小时、每天或每周观察的历史数据;有多种人类规模级别的较强的季节性趋势:每周的一些天和每年的一些时间;有事先知道的以不定期的间隔发生的重要节假日(比如国庆节);.缺失的历史数据或较大的异常数据的数量在合理范围内;有历史趋势的变化(比如因为产品发布);对于数据中蕴含的非线性增长的趋势都有一个自然极限或饱和状态。

模型的整体构建如下:

AIOps的第四方物流智能运维辅助研究-LMLPHP

       模型(1)整体由三部分组成:growth(增长趋势)、seasonality(季节趋势)以及holidays(节假日对预测值的影响)。

其中g(t)表示增长函数,用来拟合时间序列中预测值的非周期性变化;s(t)用来表示周期性变化,比如说每周,每年中的季节等;h(t)表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响。最后为噪声项,表示模型未预测到的波动,这里假设是高斯分布的。

     可以看出这是一种类似generalized additive model(GAM)的模型,不同于以往的时间序列预测模型(例如ARIMA),上述的模型 将预测问题视作曲线拟合问题。这样做具有很多实践价值:灵活度高,许多具有不同周期以及不同假设的季节性趋势能很容易的被引入;时间序列中无需有一个固定的周期,也不需要在拟合前对缺失值进行填补,这是传统的(例如ARIMA)模型所办不到的;.拟合非常快,允许分析师交互式的探索模型的效果;.模型中参数的解释性很强,可以让分析师根据启发来增强某部分假设。

AIOps的第四方物流智能运维辅助研究-LMLPHP

                                 图 Prophet预测

AIOps的第四方物流智能运维辅助研究-LMLPHP

                        图 Prophet成分分析效果图

 

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

                           图   磁盘容量趋势

3.3 4PL容量评估研究

     我们对第四方物流信息平台容量评估需要通过许多方面,通过参考技术评审指标,保证系统架构设计满足用户和系统对非功能质量的需求。

                                      表 应用服务器

 

    根据应用层的访问量和访问峰值,计算出需要的数据库资源的QPS,TPS,每天的数据总量等,由此来评估所需数据库资源的数量和配置,部署结构等。

                                           表 数据库

 

    根据应用层的访问量和访问峰值,通过评估热数据占比,计算出的缓存资源的大小,存取缓存资源的峰值,由此来计算所需缓存资源的数量和配置,部署结构等。

                                                       表 缓存

 

    根据应用层的访问量和访问峰值,计算需要消息队列传递的数据内容和数据量,计算出的消息队列资源的数量和配置,部署结构等。

                                                      表 消息队列

 

      量级评估标准:容量按照峰值5倍冗余计算。会员常用地址容量按照30年计算,而物流订单时效性较强按照3年计算。第三方查询接口5000 QPS。

Mysql单端口读:1000 QPS,单端口写:700 TPS,单表容量:5000万条

Redis单端口读:4万 QPS,单端口写:4万 TPS,单端口内存容量:32G

Kafka单机读:3万 QPS,单机写:5000 TPS,应用服务器,请求量每秒峰值:5000 QPS

     容量规划的关键就是找出系统可承载的最大压力,然后根据极限压力再做部署规划,话说的容易,其实这往往是最困难的部分,因为它不像杯子那种容器,其容量是很直观的、可以提前确定。而服务器的性能是不好估量的,看不到摸不着,其容量只能通过实际测试才能得到。再说,我们所运维的系统可是由数以千计的机器组成的,这么多机器对系统的容量都起到决定性的作用,而且大多数情况下各个机器的性能是不一致的,一台机器的容量数据不能作为其他机器的标准,总之各服务器都有自己的极限容量。就像电池一样,有的电池容量较大,2600毫安,有的容量较小,2000毫安,因此,它们各自的续航时间是不同的。

     其中, P%为容忍度,γ是容量数据(线路总流量)中第P百分位数的值,BW是容量全值(线路预购带宽),α是容量利用率(线路带宽利用率)的空闲阈值,β是繁忙阈值。考虑广域网两端协议信令交互,一般预留15%带宽给信令通道和缓冲区,故α=60%,β=85%。

  1. 当 γ/BW ≥ β ,认为容量已经拥塞 ;
  2.  当 α<γ/BW<β,认为在 P% 的概率下,容量利用率正常,既无拥塞也不空闲 ;(1-P)% 的概率下发生拥塞 ;
  3.  当 γ/BW ≤ α,认为在 P% 的概率下,容量利用率为闲置。容忍度(P%)关乎网络传输质量,其值越高,表示对线路拥塞的期望越低。

    通过持续观察,根据线路总流量频率直方图近似于正态分布的特性,将线路总流量近似为正态分布。据此,如果将距离平均值 ±3 个标准差的数值分布99.7% 设为容忍度 P 则会过于严苛,运营成本激增,故取95.4% 的样本数值(距离平均值 ±2 个标准差)为容忍度 P。

    有规律的突发流量预示着后台服务性能瓶颈、前台业务模式调整、QoS策略匹配失效等问题,必须对其进行模式识别。通过时间 序列自相关(ACF)检测,判断突发流量究竟是否存在内部相关性和变化规律,即是否独立性(白噪声)。对于存在自相关性的突发流量时间序列,使用流量分析工具并结合业务量统计,分析这些规律突发的背后成因。对于判定为白噪声的突发流量时间序列,则可以认为其不存在自相关性,是偶发事件,虽无需扩容但需检查核心交易系统的超时情况,以验证QoS策略是否能发挥预期作用。以某线路出方向突发流量数据为例,其ACF的Box-Ljung统计量在1阶延迟处显著性就小于0.05,所以拒绝独立性(白噪声)假设,推断突发流量有规律可循。

我们还必须对业务量的压力进行预测,结合量化分析结果,评估后期应对能力和风险。

  1. 上线前新业务需求压力量化评估。传统评估方法仅根据业务规划和经验预估高峰并发量,或将所需传送总量直接平均至工作时段,推算出所需平均网络带宽。虽然基于应用逻辑,可以使用 LoadRunner模拟运行压力,不仅全网模拟异常耗时耗力,而且仅凭过往经验推算今后并发量有欠妥当,必须考虑一种将业务量增长规划转化为实际运行压力指标的便捷办法。实际上,每个系统都是依次为队列中的客户服务,所以量化评估并发量的关键在于如何应用排队论理论进行估算。一般而言,并发量(在线用户数)满足泊松分布,且通常都远大于 20(μ ≥ 20),故可认为符合标准正态分布。

使用利特尔法则(Little’slaw)和 Eric Man Wong 的峰值并发计算方法,将应用所需处理的业务量视作“估算排队客户数”,计算平均和高峰并发业务量,再根据实测的单笔业务量的最小所需资源(即单笔业务量的最小带宽需求,也是业务最大忍受极限)对业务的需求压力给出了 99.87%置信度情况下预测。这个方法仅从业务量统计分布预测应用带宽所需,不依赖测试环境条件,不局限于应用类型,所以可以方便地在每次新业务上线前进行预测。

(1)短期估算。短期估算是以月为观察周期,考察对容量使用情况的影响因素如何持续作用。我行选择拟合度较好的自回归积分移动平均数(ARIMA)模型并生成预测值。在训练时,以总带宽为因变量,以7 种业务类型的流量为自变量,对加法和移位水平进行离群值检查。

(2)长期估算。经过数月的稳定运行后,可以考虑对每个业务类型的流量数据进行分布特性分析,构建总带宽(因变量)对各个业务类型流量(自变量)的回归方程。由于仅是对专线带宽的容量进行回归分析,其成因明确,关系简单,所以可以直接使用多元线性回归,在此基础上再进行蒙特卡洛随机模拟,以模拟仿真方法预测容量使用情况的极值。

3.4PL告警预测研究

     第四方物流信息平台通过数据采集、数据处理、数据存储、数据展示、数据预警的方式进行对现场环境设备、网络、温湿度、电量、开关、设备运行状态、压力、能源信息进行集中化实施展示分析。根据容量计算算法对机柜配电容量、冷却容量、装机量进行预警、评估、扩容优化。通过平台数据接口二次开发将预警数据进行实施传输到运维人员工作通讯群等平台,实现了运行数据信息共享化、预警信息实时化。

 

 

一般上告警处理步骤:

(1)告警过滤(将告警中不重要的告警以及重复告警过滤掉)

(2)生成派生告警(根源关联关系生成各类派生告警)

(3)告警关联(同一个时间窗内,不同类型派生告警是否存在关联)

(4)权重计算(根据预先设置的各类告警的权重,计算成为根源告警的可能性)

(5)生成根源告警(将权重最大的派生告警标记为根源告警)

(6)根源告警合并(若多类告警计算出的根源告警相同,则将其合并)

(7)根据历史告警处理知识库,找到类似根源告警的处理方案,智能地给出解决方案。

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

      告警对第四方物流信息平台运维来说可以发挥的作用包括:

1 数据分析平台。大量而来源广泛的事件实际上代表着IT的运行状态,所以通过大数据对告警事件的分析,可以得到一些有价值的IT运行规律和运行趋势。例如运维中一些重大事件的发生与具体业务系统的关系;重大事件与时间点的关系,不同业务系统发生故障之间潜在的关联关系,不同事件来源之间的互相影响关系和分析等。大数据已经广泛应用,但监控上的大数据确实不多见。

2 知识库。事件的发生和处理在运维是属于大概率事件和重复性事件,所以对于处理后的事件的保存实际上是对于过去运维经验和知识的积累。知识库的建议可以减少新人从无到有的熟练时间,也可以减少事件的处理时间和难度。

3 IT服务流程。经过过滤的告警事件将被送到服务流程的事件管理中形成工单,这种工具形成的工单比人肉发现的工单更有广泛性和实效性。当工单处理完毕后,事件平台上的事件要改变属性,以便形成事件管理的闭环。

4 业务大屏。业务的运行状态可以通过监控大屏展现出来。这种展现不仅是运维门面的需要,也是IT了解业务整体状态的第一手资料,只有大屏才可以在目前监控软件分别监控的状态下将各个监控数据进行重新的展示和演绎,以符合整体展示的目的。而告警事件是监控大屏很重要的一环。

5 事件通知。

6 运维自动化。经过预选的告警事件发生后,可以自动触发管理动作,如事件的自动解决等。当然在现实监控项目中,这种预选的事件是有条件的,比如大家已经很清楚原因、规律,处理动作比较清晰和明确,影响面可以控制等。坦率的说,事件的自动化处理不推荐大规模使用,因为事件的环境微小的改变,你预设的处理步骤都可以受到影响,进而出现错误的结果。

7 分析报表。分析报表不是什么新技术,但是分析报表永远可以在第一时间将你最需要知道的东西完整展示给你。你想做SLA(服务水平管理协议),想得到可用性的KPI,那就一定是按照某种算法对事件的综合计算来得到。

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

    在进行告警预测,运用TF-IDF算法从日志中获取异常的字段,然后运用k-means聚类形成指标,在运用FP-growth关联规则将字段关联哪一类故障。

    k-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。  k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。

算法过程:

   1)从N个文档随机选取K个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

3)重新计算已经得到的各个类的质心

4)迭代2~3步直至新的质心与原质心相等或小于指定阀值,算法结束

         说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

  具体如下:

输入:k, data[n];

  (1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];

  (2) 对于data[0]….data[n],分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;

  (3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;

(4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值。

     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

    TF-IDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TF/IDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。

     FP-growth算法是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集,但不能发现数据之间的关联规则。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说Apriori算法是高效的。

     FP表示的是频繁模式,其通过链接来连接相似元素,被连起来的元素可以看成是一个链表。将事务数据表中的各个事务对应的数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中,同时在每个结点处记录该结点出现的支持度。FP-growth算法的流程为:首先构造FP树,然后利用它来挖掘频繁项集。在构造FP树时,需要对数据集扫描两边,第一遍扫描用来统计频率,第二遍扫描至考虑频繁项集。

 在构建了FP树之后,就可以抽取频繁项集了,这里的思想和Apriori算法大致类似,首先从氮元素项集合开始,然后在此基础上逐步构建更大的集合。大致分为三个步骤:

(1)从FP树中获得条件模式基;

(2)利用条件模式基,构建一个条件FP树;

(3)迭代重复(1)和(2),直到树包含一个元素项为止。

首先,获取条件模式基。条件模式基是以所查找元素项为结尾的路径集合,表示的是所查找的元素项与树根节点之间的所有内容。结合构建FP树绘制的图,r的前缀路径就是{x,s}、{z,x,y}和{z},其中的每条前缀路径都与一个计数值有关,该计数值表示的是每条路径上r的数目。为了得到这些前缀路径,结合之前所得到的头指针表,头指针表中包含相同类型元素链表的起始指针,根据每一个元素项都可以上溯到这棵树直到根节点为止。

 

3.5 4PL故障诊断研究

      接下来说明预测报警后,如何进行故障定位。我们会根据top值来找到占比比较高的进程,由于直接处理占比比较高的进程会有风险,所以我们只会邮件通知负责人以及运维人员。第四方物流智能运维故障管理是网络管理的一项重要功能 ,包括故障的发现、故障的快速定位以及故障的修复。其中故障的快速定位是关键 ,也是难点。如果能够设计出基于人工智能和模式识别的系统将众多的告警进行关联分析 ,并利用数据挖掘技术对性能数据进行分析 ,识别告警模式 ,就能自动找出故障源 ,将可大大提高管理维护工作的时效性。 一个好的故障诊断系统应具有较强的鲁棒性和扩展性以适应通信技术 的快速发展。目前有一些网络故障解决办法 ,如: 代码本、贝叶斯网络、基于模型推理、基于案例的推理等方法。

1)针对每个参量的历史数据,通过AR 模型、SOM 算法计算出转移概率矩阵{X1,X2, …,XN}。

2)针对所有参量的历史数据,通过第 2 节中的 DBSCAN 算法对该多元时间序列进行聚类,将历史数据聚成 m 个簇。

3)将在线监测的实时数据流代入 1)中的转移概率矩阵得到各参量的转移概率序列,并判断各时间点的数据是否属于 2)中的 m 个聚类。

4)根据 3)中的结果对数据流进行异常检测,异常检测逻辑如下:

①当各参量的转移概率序列都不存在 0 值,且数据流中各时间点的数据属于 m 个簇中的 1 个时,则该段数据不存在异常;

②当各参量的转移概率序列存在少数几个 0值,且数据流中少数时间点的数据不属于 m 个簇,则该段数据中存在少数几个噪声点,属于传感器异常,可以忽略;

③当 k 个参量(k<N)的转移概率序列存在一段 0值,且数据流中一大段时间点的数据不属于 m 个簇,则判断设备出现了异常运行状态;

④对③中异常运行状态,根据参量转移概率序列的过 0 点,判断设备异常状态的发生时间。

 

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

 

AIOps的第四方物流智能运维辅助研究-LMLPHP

       陈彦德(2008)根据实验结果计算得到的正确识别率和误警率SOM 将4种故障与正常场景进行了正确分类。但是正常场景的一部分数据被标识为未知类别。 该系统的平均故障识别率为95. 82% .。而误警率下降到了 3. 96%。对试验结果的分析表明 ,在复杂的网络中采用基于 SOM 的故障识别比在简单的星型拓扑网络中效果更好

10-03 20:29