网络流量分类研究

网络流量分类研究网络流量分类研究

演讲人：衡丽花导师：王宗敏指导老师：陈刚

研究背景、意义和现状流量分类基本概念当前流量分类进展几种分类方法的比较流量分类未来发展预测下一步工作

主要内容

自 P2P 网络出现以来，网络流量越来越大；网络流量管理技术可以帮助网络运营商提供更好的

服务质量，还能对网络进行有效的监督管理。

研究背景

通过流分类，可以获悉各类网络应用所占比例，研究新的协议与应用，预测网络业务的发展趋势，合理规划网络；

定期分析重要的特定流量，了解流入流出信息，发现设备故障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。

研究意义

Niksun 公司的 NetDetector 提供实时、连续的流量记录和分析；需时较长，工程规模复杂，费用极高；FLUKE 公司的网络协议分析仪 OPV_WGA 提供对网络的从一层到七层的全部分析；基于端口的传统协议；华为 3Com 公司的 NTA （ Network Traffic Analysis ）基于三层协议号、端口号，可以识别上千种应用；无法分析四层至七层的应用流量；Cisco 公司的 SCE 采用 DPI 对应用层协议进行识别；只能识别已知的非加密协议；

现有的网络流量分类产品

a ） Bit-level ：关注网络流量的数据特征 b ） Packet-level ：关注数据包（ packet ）的特征及其到

达过程、延迟和丢包率等 c ） Flow-level ：依据地址和应用协议划分，关注流的到

达过程、到达间隔及其局部特性等 d ） Stream-level ：关注主机对之间的应用流量

不同层面（粒度）的流量分析

流量分类度量标准

TP(True Positives), 属于类别 X 并被正确预测为类别 X 的百分比；FN(False Negatives), 属于类别 X但被预测为不是类别 X 的百分比；FP(False Positives), 不属于类别 X但被预测为类别 X 的百分比；TN(True Negatives), 不属于类别 X并被预测为不是类别 X 的百分比。Accuracy ： TP+TN TP+FN+FP+TNRecall: TP TP+FNPrecision: TP TP+FP

依赖 TCP 或 UDP 数据包中的端口号，将熟知的端口号进行映射来识别不同的应用类型。分类器只需找到一次 TCP 连接中的 SYN 包，并从这个 SYN 包中找到目的端口号即可。 UDP 也使用类似的方法。

基于端口号的流量分类

根据网络应用在传输过程中所具有的特征来区分不同的应用，需要解析数据包中的特征字段。主要用于识别 P2P 协议流量。

基于特征字段的流量分类

基于传输层主机行为的流量分类

分析主机在传输层的行为模式，主要有三个特点：不需要访问数据包的载荷内容；无需识别端口号；只需采集当前的流量信息。

主要分析三个层次的内容：社会层：分析某台主机与哪些主机进行相互通信；功能层：研究主机在网络中的功能，即它是做为一个提供者还是请求者，或者是两者兼有；应用层：捕获特定主机间的相互作用，利用一个四元组通过观察流的特性来细化分类。

基于机器学习的流量分类—分类也称监督机器学习方法，根据已标记样本的特点构造分类规则或分类器，将未知类别的样本映射到给定类别中的一个。它的输入为一些已经分好类的样本实体的集合，输出为通过这些样本产生的一个分类模型。主要包括两个过程：训练过程和分类过程。目前，分类模型的构造方法主要包括决策树、朴素贝叶斯、支持向量机、关联规则学习、神经网络、 NN算法、 LDA 算法和遗传算法等。

基于机器学习的流量分类—聚类无监督学习，它是最终要发现相似数据点的结合，相对于有监督的机器学习法，无监督学习不需要事先有待分类对象的先验知识，只是根据待分类对象的相似度分类。

目前常用的聚类算法也有很多，如：k-means 算法、 DBSCAN 、 AutoClass 和 EM算法等。

几种分类方法比较

分类方法基于端口号基于特征字段基于传输层主机行为基于机器学习

准确度低非常高较高较高分类速度很快慢较快慢

使用场景使用传统 IANA注册端口号的传统网络

数据包有效负载为明文大流量骨干网络传统及新型网络

应用

优点简单快速适合 P2P等新兴网络应用

能对加密数据进行分析，开销较低、易实施

可扩展性强，能够识别加密流量

缺点

若应用不使用IANA注册的端口号或使用动态端口号，该方法无法使用

开销大，涉及用户隐私问题

无法识别特定应用的子类型耗费资源过多

是否单独适合高速网络流量分类否是，但范围有限是，需配合其他

方法试验阶段

是否单独适合加密流量分类否否是是

是够单独适合精细化流量分类否是是是

可以总结为以下几点：逐步避免依赖端口号；无需检测用户数据包的负载内容；能迅速得到新型应用的识别特征；在高速骨干网络环境中，对流量进行实时精确地分类；为避免涉及用户隐私问题，对加密流量的分类；更细粒度的层次上对网络流量进行分类；协议动态变化时的流量分类。

流量分类未来发展预测

下一步工作

对机器学习中的几种算法通过实验进行性能比较找出一种效率及准确率更高的流量分类算法

参考文献[1]熊刚，孟姣，曹自刚，王勇，郭莉，方滨兴 . 网络流量分类研究进展与展望 [J]. 集成技术， 2012[2]彭芸，刘琼 .Internet 流分类方法的比较研究 [J].计算机科学， 2007[3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008.[4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004.[5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005.[6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel trafficclassification in the dark.In ACM. October 1st 2005.[7]徐鹏，林森 . 基于 C4.5 决策树的流量分类算法 [J].软件学报， 2009.[8]胡婷，王勇，陶晓玲 . 网络流量分类方法的比较研究 [J].桂林电子科技大学，2010.[9]席讴婕 ,李茹 . 基于 k-means 和自适应谐振理论的网络流量分类方法 . 内蒙古大学 .2010.

谢谢大家！

网络流量分类研究

Documents