219432431_基于集成学习的网络入侵检测技术

219432431_基于集成学习的网络入侵检测技术


2024年4月13日发(作者:)

科技与创新

ScienceandTechnology&Innovation

2023年第12期

2095-6835

2023

12-0122-03

文章编号:

基于集成学习的网络入侵检测技术

周翔

(长江大学电子信息学院,湖北荆州434023)

摘要:随着计算机网络的大规模应用,网络入侵检测问题给工业部门、高校和运营商带来了巨大挑战,面对日益增长

的网络入侵威胁,传统单一的机器学习算法在网络入侵检测领域的应用检测效果不佳,如何高效地从网络中识别入侵流

量显得尤为重要。提出了一种基于BO-DEXL(BayesianOptimization-DT-ET-XGboost-LightGBM)的集成学习算法的入

侵检测算法,将开源的

UNSW-NB15

作为入侵检测数据集,使用标签编码对数据集进行预处理,然后利用基于随机森林

的特征值选择算法,对特征重要度进行排序,选中前

35

个特征值作为数据,通过贝叶斯优化对集成学习中各个模型进行

优化,准确率达到95.18%。

关键词:入侵检测;标签编码;LightGBM;UNSW-NB15

中图分类号:

TP393

文献标志码:

ADOI

10.15913/.2023.12.037

互联网的快速发展,为生活中各种应用的接入提

供了方便,计算机网络已经成为人们日常生活中不可

或缺的关键部分,互联网规模不断扩大。然而互联网

入侵事件并未减少,入侵对互联网的威胁越来越大,

网络入侵的主要目的是窃取商业、军事等机密,从而

造成数据泄露,对国家和社会造成极大危害,同时通

过入侵也可发动分布式拒绝服务攻击,造成网络或者

服务瘫痪。近年来网络入侵事件频繁发生,对国家信

息安全造成了严重威胁,因此入侵检测成为计算机网

络安全研究的重要内容。

网络入侵检测系统在过去已经得到不断发展,许

多机器学习已经被用于入侵检测系统中,例如改良的

SVM(支持向量机)、KNN(邻近算法)、等算法,但

单独算法对入侵检测效果不佳。因此,本文提出集中

基于集成学习的算法用于入侵检测,提高检测准确率。

少特征值数量。KABIR等

[4]

使用XGBoost算法与KNN

算法堆叠,使用onehot编码对数据进行预处理,准确

率达到94%。KASONGO等

[5]

使用XGBoost算法作为

特征值选择,用于减少特征值数量,然后应用DT(决

策树)、ANN(人工神经网络)、LR(逻辑回归)、KNN

和SVM模型,在这些模型中XGBoost和KNN表现最

好,准确率约为95%。

由于单个机器学习模型准确率不理想,本文使用

基于DEXL(DT-ET-XGboost-LightGBM)的集成学习

算法对入侵检测系统进行研究。

2入侵检测系统的研究

2.1基于Stacking(堆叠模型)的集成学习算法

基于集成学习算法的入侵检测工作在安全中心进

行,安全中心通过获取Pacp文件、解析pacp文件来

获取特征值。

网络架构如图1所示。

1相关工作

入侵检测这一概念来自于1980年美国空军的一份

技术报告

[1]

,入侵指对未经授权访问网络或对计算机系

统构成了严重的威胁,其中包括拒绝服务攻击、蠕虫、

Fuzzers、后门等。这种未经授权的网络访问被称为网

络入侵。

HUSAIN等

[2]

使用UNSW-NB15数据集,提出使

用XGBoost算法构建入侵检测系统,通过与已有的随

机森林、KNN、逻辑回归算法进行比较,实验结果准

确率为88%,准确率不够理想。KUSUMAPUTRI等

[3]

使用NSL-KDD数据集,通过特征选择算法提取有用

特征值,使用Optuna算法对XGBoost算法进行优化,

从而构建入侵检测系统,但特征选择算法没有明显减

·122·

图1网络架构

入侵检测安全中心的检测入侵训练的一般流程如

Copyright©博看网. All Rights Reserved.

2023年第12期

ScienceandTechnology&Innovation

科技与创新

图2所示。首先将数据集进行预处理,通过对特征值

的重要度进行排序,然后使用贝叶斯优化算法对各个

模块进行优化得到最佳超参数。得到最佳超参数后,

分别通过DT、ET、XGboost对流量进行初次分类后,

将DT、ET、XGboost的训练结果合并成数据集作为输

入,最后利用LightGBM算法进行最终的分类。

数多,对LightGBM模型超参数进行优化,会使模型

的性能产生较大提升。将经过预处理的数据作为数据

集输入模型,通过贝叶斯超参数优化,确定超参数值,

如表1所示。

测试集

LightGBM

保存最优超

参数值

图3

超参数

Learning_rate

Lambda_l1

Max_depth

num_leaves

lambda_l2

Boosting_type

LightGBM的贝叶斯优化

表1超参数优化结果

优化值

0.0900

2.1000

20.0000

256.0000

0.0264

gbdt

含义

学习率

L1正则化

树最大深度

叶子树

L2正则化

算法类型

2.3基于随机森林的特征重要度理论

随机森林进行特征重要性评估特征值的基本思想

是查看随机森林中的每棵树有多大贡献,然后取平均

值比较特征之间贡献度大小。计算重要度的常见方法

有2种,一种是平均不纯度的减少(meandecrease

图2安全中心运行流程

impurity),另一种是平均准确率的减少(meandecrease

accuracy)。

2.4集成学习理论

集成学习是使用多个机器学习器来完全学习任

务,从而获得比单一的机器学习模型更好的方法,通

常包括Bagging、boosting和Stacking等方式,集成学

习可以用于分类问题集成、异常点检测集成、回归问

题集成、特征选择集成等。

2.2贝叶斯优化理论

贝叶斯优化(Bayesianoptimization)是基于历史

验证的结果来决定模型下一次迭代超参数,迭代过程

远低于随机搜索的迭代次数,能保证建模时间短的同

时提高测试集上的泛化能力。其主要思想是:构建一

个初始模型,根据后续结果来进行模型优化。随着数

据的积累,优化函数会离目标函数越来越近,从而得

到最优解

[6]

。本文使用Hyperopt框架对模型进行贝叶

斯优化。

基于Hyperopt框架的贝叶斯优化(如图3所示)

主要过程分为4部分:①定义目标函数。以超参数作

为输入,通过计算返回数值。②确定搜索空间。给定

超参数的搜索范围。③选择搜索算法。用来构建下一

次迭代超参数的方法。④获取最优超参数。保存寻优

过程中最优的超参数值。

以LightGBM模型为例,不同的超参数的组合会

使模型分类结果产生变化,由于LightGBM模型超参

3实验方法

3.1数据集

本文采用UNSW-NB15数据集,该数据由新南威

尔士大学网络实验室创建,是关于入侵检测的开源数

据集。数据集中一共有9种攻击,共49个特征值。本

文使用其中的部分训练集和测试集。数据集的数据量

具体如表2所示。

分类

正常流量

攻击流量

表2数据分布情况

数量

164673

93000

Copyright©博看网. All Rights Reserved.

·123·

科技与创新

ScienceandTechnology&Innovation

3.2

2023年第12期

数据集预处理

UNSW-NB15包含字符型和数值特征,因此需要

进行比较,经过特征值重要度排序后,选取前35个特

征值作为数据集。实验结果如表4所示。

表4实验结果

算法

BO-DT

BO-ET

BO-XGBoost

BO-LightGBM

BO-DEXL

准确率(/%)精准度/(%)

93.8190.12

94.2991.63

94.7292.39

94.7492.19

95.1892.48

召回率

0.9293

0.9255

0.9332

0.9334

0.9430

对字符型的特征值进行预处理。数据集中特征值proto、

service和state为字符型特征,由于本文使用的是基于

决策树的算法,无需使用one_hot编码,故选择

label-encoding编码,能最大程度保留特征值数量。经

过标签编码,将udp替换为199,将TCP替换为113,

将none替换为0,将INT替换为5,将FIN替换为4。

3.3基于随机森林的特征重要度选择

将经过预处理的数据集通过特征重要度计算,如

表3所示。分数越高表示特征值越重要,对模型分类

影响越大,后续通过特征值重要度来选择特征值数量,

以达到检测复杂度和准确率最优的结果。

表3部分特征重要度排序

特征序号

1

2

3

4

5

特征名

sttl

ct_state_ttl

dttl

swin

ct_srv_dst

重要度分数

0.166076

0.101336

0.100965

0.043778

0.036947

实验结果显示,BO-DEXL模型效果最好,准确率

为95.18%,精准度为92.48%,召回率为0.9430,

BO-DEGL在对比的算法中最高。BO-DT模型效果最

差,准确率为93.81%,精准度为90.12%,召回率为

0.9293。模型BO-DEXL准确率相比文献[2]提出的方

法提高了7.18%,相比文献[4]的方法准确率提高了

1.18%。

结果表明,集成学习模型BO-DEXL准确率与所

比较的机器学习算法准确率具有一定优势,模型的准

确率,精准度和召回率得到了提高。

5结论

本文从网络入侵检测模型构建的角度,将DT、ET、

XGBoost和LightGBM这4种模型通过使用stacking

集成的方式,每个模型都通过贝叶斯优化,最终形成

BO-DEXL模型,将BO-DEXL模型与传统机器学习进

行对比,准确率、精准度和召回率方面都占优势。

4实验结果

本文使用准确率作为评价标准,使用五折交叉验

证,准确率取5折后的平均值,实验硬件环境使用

intel至强E3-1230V2,RAM为16GB。

4.1评价指标

准确率(Accuary)是最常用、最直观的评估指标,

准确率越高分类效果越高,当入侵发送时,检测出的

概率越大。

计算方法如下:

参考文献:

[1]ersecurity

1980.

[2]HUSAINA,pmentofanefficientnetwork

intrusiondetectionmodelusingextremegradientboosting

XGBoost

ontheUNSW-NB15dataset

G

//2019IEEE

internationalsymposiumonsignalprocessingandinformation

technology(ISSPIT),2019.

[3]KUSUMAPUTRIFH,ydetectionbased

onNSL-KDDusingXGBoostwithoptunatuning[G]//2022

7thinternationalconferenceonbusinessandindustrial

research

ICBIR

),

2022.

[4]KABIRMH,HABIRMS,RAJIBASMT,k

intrusiondetectionusingUNSW-NB15dataset:stacking

machinelearningbasedapproach[G]//2022International

conferenceonadvancementinelectricalandelectronic

engineering

ICAEEE

),

2022.

5

KASONGOSM

manceanalysisofintrusion

threatmonitoringand

surveillance[R].Washington:JamesPandersoncompany,

TP

TN

TP

FP

FN

TN

精准率(Precision)指正常流量总数与正常流量被

分类为正常流量的比值,精准度越高正常流量分类越

准确,当入侵检测运行时,能极大程度上减少误报。

精准度公式如下:

TP

N

Precision

TP

FP

召回率(Recall)表示所有数据集中为正常样本检

测为正常的概率,召回率越高表示模型效果越好。

召回率公式如下:

TP

R

Recall

TP

FN

4.2实验分析

将本文提出的集成学习模型BO-DEGL算法与

BO-DT、BO-ET、BO-XGBoost和BO-LightGBM算法

M

Accuary

·124·

(下转第128页)

Copyright©博看网. All Rights Reserved.

科技与创新

ScienceandTechnology&Innovation

2023年第12期

侧石

低势绿地

侧石断接

(4):239-246.

2

]刘家琳

.

基于雨洪管理的节约型园林绿地设计研究[

D

.

北京:北京林业大学,

2013.

铺地

汇水方向

[3]崔野.植物对山地城市雨水花园脱氮除磷效能影响研究[J].

人民长江,2022,53(5):88-93.

图10断截引流示意图及实景

[4]宋珊珊.基于低影响开发的场地规划与雨水花园设计研究

[D].北京:北京林业大学,2015.

5

]李家科,李亚,沈冰,等

.

基于

SWMM

模型的城市雨水花

.

水力发电学报,

2014

33

园调控措施的效果模拟[

J

](

4

):

60-67.

[6]马鑫,侯精明,李丙尧,等.建筑小区雨水花园空间布局对

径流过程影响规律研究[J].环境工程,2022,40(12):

105-111.

.

7

]王佳,王思思,车伍,等

.

雨水花园植物的选择与设计[

J

北方园艺,

2012

19

):

77-81.

[8]王珂,廖以权.复合雨水花园在海南环岛旅游公路桥面径流

4.3.2侧石留口引流

将路缘石沿一定距离设置一定开口,通过开口将

铺地上的雨水引流至能够形成雨水利用的空间。留口

引流实现不透水铺地的雨水利用方法简单、成本低,

具有很强的可操作性。侧石留口引流示意图及实景如

图11所示。

侧石

低势绿地

铺地

图11侧石留口引流示意图及实景

5结束语

雨水花园的研究及实践已有40多年的历史。本文

仅简要分析了雨水花园中雨水的收集利用,着重体现

生态性,论述浅显。雨水花园对于城市生活,空间上

全面覆盖,除人工环境、自然环境外,建构筑物、基

础设施同样有极大开发空间;功能上多种多样,生态

只是其中之一,景观、安全、科普等同样值得研究;

空间手法及构造上不一而足,山地城市、平原城市都

可以同样发挥作用。此外,雨水花园的建造利用,水

是不可分割的要素。水,无论是具体何种形式,对城

市生态、景观等都有重要影响。作为自然赋予城市的

重要要素,从功能上看,水体具有生态功能、造景功

能、品质提升功能。根据水体的不同形态特征,对不

同的功能空间、不同的水体形式,还有极大的研究

空间。

处理中的应用[J].交通节能与环保,2021,127(6):55-59.

[9]池凌靖.雨水花园在城市居住区景观中的运用分析[J].建

材发展导向,2021,19(20):88-89.

————————

,男,学士,高级工程师,

作者简介:

曹誉(1984—)

重庆市万州区发展改革服务中心副主任,研究方向为

城市规划与设计、国土空间规划、区域合作、发展规

划等。刘蓉(1984—),女,学士,高级工程师,重庆

市万州区规划设计研究院技术质量部部长,研究方向

为城市规划与设计、国土空间规划等。向章勇

(1986—),男,学士,工程师,注册城乡规划师,四

川文理学院讲师,研究方向为乡村振兴。王根

(1987—),男,硕士,园林工程师,注册城乡规划师,

重庆市九龙坡区住房和城乡建设委员会开发市场科负

责人,研究方向为政府建设工程项目策划与实施。刘

春林(1986—),男,高级工程师,长厦安基工程设计

有限公司贵州项目总监,从事地产工作。

(编辑:张超)

参考文献:

[1]武文婷,周婷婷,任彝,等.杭州雨水花园植物资源应用现

状调查研究[

J

.

南京林业大学学报(自然科学版),

2022

————————————————————————————————————————————————

(上接第124页)

detectionsystemsusingafeatureselectionmethodon

theUNSW-NB15dataset[J].Jbigdata,2020(105):7.

6

]刘俊泽,汤艳君,薛秋爽

.

基于贝叶斯优化

LightGBM

的物

联网入侵检测模型[

J

.

警察技术,

2022

5

):

73-77.

————————

作者简介:周翔(1997—),男,硕士研究生,研究方

向为网络通信技术和信息安全。

(编辑:严丽琴)

·128·

Copyright©博看网. All Rights Reserved.


发布者:admin,转转请注明出处:http://www.yc00.com/web/1712947296a2153483.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信