智能电网通信流量模型技术研究

智能电网通信流量模型技术研究

01

引言

自互联网问世以来,关于网络流量的研究一直在研究和探索中,随着网络应用的具体化和多样化,网络流量模型研究取得了一定的进展,并且这些进展对网络性能管理、网络具体的部署和应用、网络的测量评估和维护都起到了相当大的作用。通过对网络流量模型的探索和研究,人们更加清楚和深入的了解网络特性,并针对这些特征,研究发展对应的核心业务,扩大网络能力和应用,发挥网络的最大效用,继续推动网络的建设和网络业务的发展。人们通过对网络各种数据和参数进行统计和研究,抽象出具体的网络流量模型,描述网络中的关键特性和各种数据参数之间的相互影响,指导网络的建设、应用和维护,实现网络性能的测量、评估和预测等,对于网络的发展起到更大的推动作用。

智能电网通信网同样可以利用对网络流量的研究,建立具体的通信网环境下的流量模型,抽象出具有一般物理意义的模型参数,进行精确的网络流量和网络性能的测量、评估和预测等,进而根据流量模型所显示的内容对具体网络的参数进行调整和部署,规避风险、提高网络利用率等,对智能电网的建设、智能电网通信网的运行和智能电网业务的更好开展发挥积极作用。

网络流量特性

02


流量模型是流量行为特征的数学近似,网络流量建模的基本原则是:以流量的重要特性为出发点,设计流量模型以刻画实际流量的突出特性,同时进行数学上的研究。从理论角度来看,网络业务流的数学模型提供了对流量特性简明的、抽象化的描述,其价值在于能够提取出网络流量的一些重要特性,并给出明确的量化表示。随着网络规模的扩大和各种网络服务的广泛应用,建立一个准确、有效地描述网络流量特性的流量模型,对QoS、网络性能测量预测评估管理、准入控制等都有很重要的意义和作用。

实际网络流量特性以及刻画这些流量特性的度量参数是流量建模的基础和依据,流量建模的目标是能更好地反映实际流量的特征、更方便的进行网络流量理论研究并且用于更好地指导实际应用。当前,网络流量公认最重要的统计特征是大时间尺度下的自相似性和小时间尺度下的多分形性。这些特性不仅仅存在于互联网络中,同时也存在于众多其他网络中。

自相似性和长相关性

自相似(self-similar)是指局部的结构与总体的结构相比具有某种程度的一致性,自相似过程是在统计意义上具有尺度不变性的一种随机过程。从这一点上来说,自相似过程实际上是在随机过程中引入了分形的概念。网络流量的长相关性是相对于泊松等短相关(short range dependence,简称SRD)模型而言的。长相关性(long range dependence,简称LRD)反映了自相似过程中的持续现象,即突发特性在所有的时间尺度上都存在的现象,也称之为多尺度行为特性。

长相关的随机过程自相关函数随时间的增加呈双曲线衰减(幂律衰减),自相关函数不可和;短相关过程自相关函数呈指数衰减,自相关函数可和。长相关的自相似过程的方差衰减要慢于短相关过程。

自相似性与长相关性有着密切关系。长相关性侧重于业务量的统计特性,只描述了自相关函数在大延迟下的行为;而自相似性则是偏重于数学表述,Hurst参数是表征自相似特性的一个重要参数。一般来说,H值越大,自相似程度越高,突发性也越强。

多分形性

通过对TCP 流量的数值分析发现,长相关只是流量分形性质的一个方面(在较大的时间尺度上);在较小的时间尺度上,流量体现出更为复杂的变化规律,尤其是局部具有突发性。自相似在相对较大的时间尺度上刻画了流量的长相关特性,但无法描述业务的局部特征。因此,引入了多分形的概念。

多分形延伸和细化了网络测量流量中的自相似行为(自相似即单分形),多分形性质体现了依赖于时间的尺度规律,在描述局部时间内的不规则现象时更加灵活。

流量的分形特性已经广泛应用到许多工程问题中,如互联网流量建模、TCP 流量的拥塞控制、实时估计LRD 过程的Hurst 参数等。并且,分形理论和其他的数学理论相结合,如应用小波变换的自相似及多分形分析,在流量工程中正体现出越来越重要的作用。

周期性和混沌性

实际的网络流量除了人们熟知的自相似特性外,还有其他的一些流量特性不断地被研究人员提出并进行相关研究,如周期性和混沌性等。周期性变化特性反映的是网络流量时间序列随着时间变化而表现出来一种季节性的变化规律。所谓混沌就是指在确定性系统中出现的一种貌似无规则的、类似随机的现象,它普遍存在于自然界及人类社会中,是有序与无序的统一、确定性与随机性的统一。

网络流量序列中存在着低维混沌,去掉长相关后的数据是一个随机流量数据,这反映了网络流量数据的混沌与网络流量的长相关有密切联系,为混沌与长相关的相关性提供了有力的证据。因此,将混沌控制的思想和方法引入自相似业务流控制和建模预测是非常值得探索的研究方向。


网络流量模型建模研究现状

03


20 世纪70 年代和80 年代早期,由于当时网络的应用比较单一,数据传输量较小以及受到网络测量技术的限制,人们借鉴公共交换电话网络的模型,使用泊松模型来描述数据网络的流量,并取得不错的效果。

进入80 年代中后期,随着数据网络和Web 的出现,Poisson 过程已不能充分反映Internet 业务流量的特性,逐渐引入了Markov 和回归等随机模型来描述网络流量。习惯上,人们称这些早期模型为传统网络流量模型,其共同特点就是所描述的业务序列具有短期相关性。90 年代以来,随着网络节点数的指数增加和多媒体、视频、远程教育等网络应用的不断出现,流量特性变得更加复杂。由于不同的网络应用具有不同的流量特性,使得网络流量特性也发生了显著变化,这些都增加了网络流量特征化的困难。随着研究的深入,研究人员发现网络流量具有自相似特性,传统的流量模型已不能很好地描述网络的自相似性,而流量的自相似性又是网络的普遍属性并决定了网络的行为,因而基于自相似建模的研究便成为网络研究中的一个重要方向。2004 年,Karagiannis等人通过分析Tier 1 ISP 的骨干链路流量,发现目前高带宽和高聚合的链路流量在亚秒尺度下近似泊松过程,从而引发了人们近年来对网络流量特征及建模新的思索和争论。

网络流量模型的发展被分为3 个发展阶段,分别是:传统(短相关)模型(20 世纪70 年代~1994 年)、自相似(长相关)模型(1994 年~2004 年)、流量建模的新发展(2004 年~至今)。

按照流量建模的方式,可将目前的流量建模划分成两大范畴:基于流的方法和基于包的方法。基于流的方法根据流的到达过程建模,基于包的方法可以继续分为两类:一类是基于包的到达过程和包的长度分布来建模,另一类是根据时间序列的流量大小分布特征来建模。

传统(短相关)模型

传统的网络流量模型一般是基于泊松过程的,这些模型产生的流量通常在时域上仅具有短相关性。随着时间分辨率的降低,即时间尺度变大,网络流量将趋于一个恒定值,即流量的突发性得到缓和。


1. 泊松(Poisson)模型

泊松模型是20 世纪初Erlang 根据电话业务的特征提出来的,最初用于电话网的规划和设计,可以较为准确地描述电话网中的业务特征并得到广泛的应用。在网络流量建模的早期,人们使用泊松模型来研究网络流量。泊松模型即指在时间序列t 内,包到达的数量n(t)符合参数为λt 的泊松分布,即

其相应的包到达的时间间隔序列 T 呈负指数分布,即 F() 1=−te−λt 。其中,泊松过程的强度 λ 表示单位时间间隔内出现包数量的期望值,即包到达的平均速率,其值为 λ=1/E(t)。泊松模型假设网络事件(如数据包到达)独立分布,并且只与一个单一的速率参数 λ 有关。泊松模型较好地满足了早期网络的建模需求,在网络设计、维护、管理和性能分析等方面发挥了很大的作用。然而,根据泊松流量模型,从不同的数据源汇聚的网络流量将随着数据源的增加而日益平滑,这与实际测试的流量是不符合的,因而该模型变得已不适于刻画实际的网络流量。


2.马尔可夫(Markov)模型

对于一个给定的状态空间 S={s1, s2, …,sn},Xn 表示在 n 时刻状态的随机变量,如果 Xn+1=sj 的概率只依赖于当前的状态,{Xn}就形成了一个 Markov 链。如果状态转换发生在离散时间序列(0,1,…n,…),则称 Markov 链离散,反之称为连续的 Markov 链。 

Markov 属性意味着未来状态只依赖于当前状态,这使得描述一个状态持续时间的随机变量的分布呈指数分布(连续时间)或几何分布(离散时间)。在一个简单的  Markov 流量模型中,每次状态转换代表一个新的到达,到达间隔呈指数分布。 

常见的  Markov  模型有以下几种:

1)On-Off Source Model and IPP (the interrupted Poisson process) Model; 

2)Alternating State Renewal Process;  

3)Markov Modulated Poisson Process;  

4)Markov Modulated Fluid Models 

Markov  模型是利用某一变量的现在状态和动向去预测该变量未来的状态和动向的一种分析方法。Markov 模型在随机过程中引入相关性,可以在一定程度上捕获业务的突发性,是一种具有无后效性的随机过程,应用十分广泛。Markov  模型的缺点是只能预测网络的近期流量,而且无法描述网络的长相关性。 


3.回归(regression)模型

在回归模型随机序列中,下一时刻的随机变量是由过去一个特定时间窗口中的随机变量以及一个白噪声移动平均值来决定的。 

自回归模型是Yule 在 1927年为了预测太阳黑子的数目而提出来的,该模型采用自动回归法,强调时间序列未来的点数由同一时间序列过去的值来决定;在技术上,它采用线性映射,用过去的值来映射未来的值,在给定的时间序列中选取函数的参数使得预测结果的误差最小。 


4.传统模型的不足

传统流量模型的优点是相应的概率理论知识发展比较完善,队列系统性能评价易于数学解析。传统模型仿真产生的业务,通常在时域仅具有短相关性,当业务源数目增加时,突发性会被吸收,聚合业务变得越来越平滑,不能反映业务突发性;同时,传统模型产生的业务流高频成分多而低频成分少,相关结构呈指数衰减,因而不能准确地描述流量自相似性。 

总结起来,有以下几点:

实际的数据包和大部分连接的到达是相关联的,并不严格服从泊松分布; 

传统的业务模型只具有短相关性,而流量自相似性反映业务在较大时间尺度具有突发性,对缓存的占用比传统排队论的分析结果要大,会导致更大的延时;

对于传统模型,当业务源数目增加时,突发性会被吸收,聚合业务会变得越来越平滑,忽略了流量的突发性。  


自相似(长相关)模型


自从  1994 年流量的自相似特性被发现后,各种基于自相似性的流量模型被不断地提出。基于网络流量的自相似性,有两类建模方式:一类是构造建模(物理模型),利用己知的传输知识来解释所观察到的数据特征,具有代表性的有重尾分布的  ON/OFF 模型、A1pha-Beta on/off 模型以及  M/G/∞排队模型;另一类是行为建模(统计模型),用数据拟合方法模拟所测量真实数据的变化趋势,代表模型有  FBM 模型和基于小波的模型等。 


1.重尾分布的 ON/OFF 模型

模型定义为叠加大量的  ON/OFF 源,每个源都有两个周期交替的  ON 和  OFF 状态。在  ON 状态,数据源以连续的速率发送数据包;在  OFF 状态,不发送任何数据包。每个发送源  ON  或  OFF 的时长独立地符合重尾分布(如  Pareto 分布)。传统的  ON/OFF  模型假定  ON 态和  OFF  态的持续时间均以指数形式分布。扩展这种模型使 ON 态和  OFF  态的持续时间有无限的方差,无数源的叠加呈现出长相关性(Joseph  效应)。Alpha-Beta on/off  模型在  ON/OFF 模型的基础上进一步把高速率、高容量的连接定义为  Alpha 流量,把低速率、低容量的连接定义为  Beta 流量。Alpha 流量占全部连接的很少一部分(少于  0.1%),但对整个流量的属性有很大的影响,Beta  流量基本上表现为高斯边缘分布。


2.M/G/∞排队模型

排队论的基本思想是  1910 年丹麦电话工程师  Erlang  在解决自动电话设计问题时开始形成的,当时称为话务理论。排队系统包括 3个组成部分:输入过程、排队规则和服务机构。排队系统一般是以顾客相继到达系统的间隔时间分布、服务时间的分布和服务台数目为分类标志。 

用 M/G/∞排队模型构造自相似序列的方法最早是由 Cox 提出来,并于 1998 年被 Krunzy 用于视频流量的建模。结果显示,此模型能够较好地反映实际流量的排队性能,但 M/G/∞序列无法直接用概率密度或分布函数描述。改进后的  M/G/∞模型(包间隔即顾客流用 Pareto  分布代替指数分布)生成的流量更能反映真实流量的排队特性。

M/G/∞排队模型也是一种采用构造方式的自相似网络流量模型。由于现在  IP 网络设备都基于分组交换,并且在设备的接口上采用了统计复用的实现方式,所以该模型的优点一方面在于从排队系统的角度解释了网络流量产生自相似特性的原因;另一个方面比较适合分析自相似网络流量输入时的排队性能。但由于模型中假设服务器一直处于忙期,主要凭借服务时间的随机性来描述自相似特性,因此对网络流量的突发性描述上存在不足。


3.FBM/FGN 模型

分形布朗运动(fractional Brownian motion,简称  FBM)是由  Manderbrot 和  Van Ness 提出的一种统计自相似过程的数学模型,主要用于生成布朗运动过程。其定义如下:

设  X(t)为一般布朗运动,称满足如下条件的随机过程  XH(t)为分形布朗运动:  

其中,t>0,0<H<1,X(s)为一般布朗运动。当 H=1/2 时,FBM 即为一般布朗运动。FBM 是一种不平稳的自相似过程,其自相似系数为H。FBM 是一个均值为  0  的连续高斯过程,其平稳增量过程是分形高斯噪声 FGN(fractional Gaussian noise)。令  ZH(k)=XH(k)-XH(k-1),则ZH(k)即为 FGN,FGN  是平稳的严格二阶自相似过程。 

FBM 模型能够描述网络业务流的自相似特性,只需要平均速率  m、方差  a 和 Hurst 参数 3 个参数就可以完整地刻画整个模型,在数学上有坚实的理论基础且比较好处理,因而可以很方便地应用于流量的实时仿真和特性分析。 

FBM 模型分析网络流量时也存在一些不足:由于 FBM 是严格自相似的过程,模型的参数较少,使得其描述能力有限。因此,可以用来对长相关数据进行建模,但无法描述业务的短相关特性,不能对既有长相关特性又有短相关性的流量准确建模;而且,FBM 模型带有高斯性,对于非负的信号(即非高斯性的信号)不能很好地分析,但可用于局域网实时建模仿真和性能分析。 


4.基于小波的模型

小波变换是 20  世纪 80 年代后期在泛函分析、数值分析、逼近论和傅里叶分析基础上发展起来的一个应用数学分支。经过多年的发展,小波分析被广泛地应用于信号处理、图像处理、模式识别、数字水印等相关领域中,具有多分辨率,也叫多尺度的特点,可以由粗及细地逐步观察信号。小波分析是一种窗口大小(即窗口面积)固定但其形状可以改变、时间窗和频率窗都可以改变的时频局部化分析方法(即在低频部分有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率),可以根据实际分析需要自适应地调节时频窗口,能够聚焦到信号时域和频域的任意细节。

自 20 世纪 90 年代开始,研究人员逐渐将其引入到网络模型的研究中,依靠它的多尺度特性来进一步揭示网络中的流量特征。 

小波变换具有对信号的自适应性,能够保持分析对象的尺度不变性。由于网络流量的自相似性是在统计意义上具有尺度不变性的一种随机过程,因此,小波变换在数学上具有其自身特有的优势。 


其他模型


随着智能算法的不断发展,其良好的非线性映射能力、灵活有效的学习方式在预测领域的应用中表现出较大的优势和潜力,如神经网络理论、模糊理论、混沌理论等,已应用于通信、交通、气象、水文等多种预测领域。 

1.基于神经网路的模型

人工神经网络(artificial neural network,简称  ANN)是基于生物学中神经网络的基本原理、按照控制工程的思路和数学描述的方法建立起来的数学模型。ANN 预测模型是通过采集历史流量数据整理成神经网络的训练集,通过训练确定网络模型,并用该模型估计未来指定时间的流量。网络流量预测问题实质上是一个时序预测问题,尚无通用的网络结构和算法。目前,神经网络技术还有很多有待于改进的地方,性能还不十分稳定;而且预测需要大量的训练样本和迭代,不断修正模型,增加了时间和空间复杂性。此外,单、多步长的预测关系、短长范围的预测关系及神经网络自身等还有很多工作有待研究。 

2.混沌理论模型

混沌是一种复杂的运动形式,具有不可长期预报性、不可分解性和稠密的无穷多个周期轨道,如何判定时间序列的混沌特性一直是国内外学者研究的重点。网络业务流量具有混沌性,从混沌时间序列的角度来研究自相似的业务流速率是可行的。最早的模型是  Pruthi 等人提出来的确定性的混沌映射模型,我国学者在这方面进行了大胆的尝试。陆锦军等人在 wolf 算法的基础上提出了一个混沌模型,其基本思想是直接根据数据序列本身所蕴含的规律来进行预测,不需要事先建立主观的分析模型。它具有精度高、可信度高的优点。随着对网络流量混沌现象本质的进一步深入研究,预测的可靠性和精度将更高、速度将更快。 

3.模糊理论模型

模糊理论(fuzzy theory)是处理不确定性、非线性等问题的一种有力工具,比较适合于表达那些模糊或定性的知识。由于网络流量是一个非平稳的时间序列,而模糊理论能够对时间序列进行预测,因而可以把模糊理论引入到网络流量的建模和预测的研究中。此外,模糊理论与 ANN结合组成模糊神经网络在流量预测中也有不少应用。王兆霞等人在利用神经网络进行流量建模的过程中,在前端增加了模糊预处理过程,通过分类可以减少神经网络的输入节点,而使得神经网络系统可以处理定量和定性两方面的数据样本,提出了一种基于模糊神经网络的模型;另一方面,通过在  ANN 输出端增加一个模糊组件,可以对  ANN 预测出来的结果加入某些网络环境的定性因素来进行修正。  

4.混合模型

单一的预测模型,如泊松模型、AR 模型、马尔可夫模型、ARMA  模型、小波模型等,由于只刻画了流量的泊松过程或自相似特性而不能很好地对业务流进行预测。采用混合的预测模型可以更加准确、全面地描述和预测实际网络流量。其中黄晓璐等人引入半马尔可夫模型描述网络流量特性,通过忙阈值和闲阈值的设定将网络流量划分为  4 种状态:忙、空闲、上升和下降,研究各种状态下的网络流量特性及各种状态间的相互转换关系。通过网络协议性能分析,在一定的假设条件下推出  IP 网络流量在处于忙状态时服从几何布朗运动,在空闲状态下服从正态分布,在上升或下降状态下服从指数分布。洪飞等人通过把  ARIMA  线性预测方法引入小波域内,提出一个基于多重分形小波模型的网络流量预测模型。 

当应用混合模型来预测流量时,可拟合多个模型的优点,更全面地刻画复杂的流量特性,更准确、全面地描述和预测实际网络流量。采用混合模型比单一模型的预测效果更好,其主要难点在于确定合适的网络业务特性及适用方法。 


网络流量模型的研究意义及展望

04


从流量模型的发展过程来看,流量模型的发展基本遵循一个“短相关‐自相似‐多分形”的发展历程,不同的模型所描述不同本质的流量特征。短相关模型描述流量中包的到达是一个泊松过程,刻画了流量的短相关特性,适合于小缓冲区的排队系统分析;自相似模型描述流量自相似和长相关特性,刻画流量的长相关特征,适合于大缓冲区的排队系统分析;多分形模型更多用于流量的细节分析,流量预测模型主要用于预测未来到达流量的大小等等。 

目前对于智能电网通信流量模型的研究工作还处于一个积极研究和探索的阶段,由于智能电网通信网其本身所具有的复杂的特性以及网络流量模型研究的抽象性等原因,并没有出现一个比较适合具体智能电网通信网的流量模型,对于期待中的智能电网通信网的网络性能测量、评估、预测等并没有很好的实现,因此,需要研究智能电网通信网的具体通信环境、具体业务和各种需求指标,具体分析和高度抽象,建立符合智能电网通信网流量特性的流量模型,对于未来的智能电网通信网的运营和各种智能电网业务的良好开展做出有力的技术推动和支撑。


电力通信专委会

·↑长按此二维码可关注 ↑·