基于GRU-Bagging模型的异常用电行为检测

基于GRU-Bagging模型的异常用电行为检测


2024年4月13日发(作者:)

技术方案

Technooogy

Scheme

数据通信

20206

基于

GRU-Bagging

模型的异常用电行为检测

----------------------马云

李英娜

"(

l

.昆明理工大学信息工程与自动化学院昆明

650500

2

-

云南省计算机技术应用重点实验室昆明

650500

)

摘要

:

针对真实窃电用户数量远远少于正常用电用户所导致的窃电用户分类预测不合理的问题

本文提出

了一种基于

GRU-Bagging

模型的异常用电行为检测方法

首先通过构建基于门控制单元

(

GRU

)

的特征提取网

络从用户历史负荷序列数据中提取出潜在优选特征

;

然后利用

SMOTE

算法增加少数窃电用户的数据量

,

有效解决

数据分布不均衡问题

;

最后

采用

Bagging

集成学习模型训练并预测新的测试样本的类别

实验结果表明

不平衡数据集上表现良好

预测准确度达到

86.

17%

,

召回率更是达到

95.34%

此外

,与

长短期记忆网络

(LSTM

)

以及

人工特征提取方法相比

所提特征提取方法具有更高效的性能#

关键词

:

常用电行为

;

不平衡数据

;

SMOTE

算法

GRU

Bagging

算法

中图分类号

:

TM715

•:

A

0

引言

为分类特征

再利用支

(

SVM

)

算法对用电客

系数检

消耗

经济快速发展

我国

步入智能电网全面建

户进行

分类

6

利用皮

成的阶段

随着智能电网的

大量的用户数据

电行为信息

1

年来

o

电力公司积累了

电量异常下降的用户

再结合贝

中提出

14

网络和决

之中隐藏着大量用户的用

,

者依托

用户历史

在窃电行为的用户

7

从用户

征表征用户用电模式

并将网格技术应

用电数据

采用

挖掘以及

器学习的方法从用数

侧进行用户窃电行为的探索旧

"

用户的

常用电模

用在局部离群因子

(

LOF

)

算法中提高算法执行效率

,

实现对用电异常用户的有效识别

文献

8

于密度的聚类技术对用户的用电波动

划分

,

异常用电模式之间存在着本质的区别

是由于

历史

规模的庞大与复杂性

,

3

并计算其异常用电量得分

(

FCM

)

聚类方法

识异常用电行为

上再

无法通

识别

在用户异常用电行为检测的过

文献⑼将窃电用户的识别分为两步

先通过模糊

C

中使用数据挖掘技术是为了利用有限的已知分类的样

窃电用户

分析用户用电模式之间的分类规律

并利用

利用

的支

算法以

窃电用户

规律来拟合大量

对用户窃电行为的

分类的用电数据

从实现

10

首先利用随

权网络

模型

然后

,

异常累

量的用电

估指标

并在

提模型的

目前

,

经有

者利用

分类的方法

行为的异常

对用户窃电行为

研究

,

文献⑷通过引入聚

线

的特征曲线

,

和高效性

-

11

利用

上构

征匹配

类算法将用户的

Tensor

Flow

深度

习框架构建特征提取网络提取出时

的差别

窃电用户

5

在使

间序列的

并在

网络

,

以完成对用户

用用户历史用电数据的同时

入该用户的信用评级作

的特征匹配

实现用户异

30

基金项目

国家自然科学基金

(

61962031

)

资助

技术方案

2020.

4

数据通信

Tech

no

logy

Scheme

用电行为的检测

"

上所

述研究

,

电行为的

别提供

的参

但是所述研究重点均放

电分类

算法的改进上,

并未

考虑

在用户

电行为检测过

异常样本

数量

正常样本的数量所产生

问题

为此,本文

GRU

-

Bagging集

习的用

异常

用电

检测模型

记为

GRU

-

Bagyiny

该模

引入

GRU

神经网络对用户

历史

进行

1

GRU

结构图

以获

取时

中的潜在优

并利

式中

表示更新

I'T

+

c

表示重置门

h

-

为上一层

SMOTE

算法

提高少数类

电用户的

有效

解决数据分布不均衡问题"再将处理过后的平衡数据

集作为

Bagging

集成学习模型的输入

利用

以决

的输出结果

;

h

为输入

@

与"

_1

的汇总

/

表示

Sigmoid

函数

U

,,

E

8

,

-

8

,

E

以及

-

为训

为基分类器的

Bagyiny

算法

分类预测

分类

练参数矩阵

°"_1

表示

h

的复合关系

1

-

6

Bagging

集成学习算法

低模型

受到噪

器的分类精度"

的同时提高

Bagyiny

算法

-

14

.

的主要

思想

组合

这样把

结果有策略

1

相关技术介绍

16

GRU

构神经

网络

环神经网络

(

RNN

%

在其网络

结构

加入了

的进行结合

,

分类器的

分类

问题可以

有效提高单个

流程

是有放回地

并为

都一个

组合

生成一

的分类器

,

最终

分类器的

循环

单元

,

隐藏单元

之间的内部

相连接

使

得探

方法

所以使

的输出结果

连续

数据之间的时

RNN

来分析

处理时

RNN

也存在

时间间隔较远的信

消失问题

学习到

2

Bagging

集成学

的用户异

用电模

为了更好地

异常

用电

式检测

本文

提出一

式检测模

Bagyiny

成学习的用户

异常

用电

模式检测模

上述问题,

专家学者

此先后提出了

LSTM

以及

GRU

结构神

经网络亠⑶

GRU

作为

LSTM

的一

变体

採用门控循

神经网络

结构

,

LSTM

效果

GRU

体流程

如图

2

所示

该模

挖掘

LSTM

法找出用户用电

式之间的关

析出异常

的用电

LSTM

,

在于

的更

26

数据源与数据集

GRU

LSTM

中的输入门和

前状态中的程度

。GRU

中的更新门用于控制前一时

态信息

值越大表示前一

文使用的数据源来自于南方某省电网公司

采集

的用户

2014

年全年的电

数据的

采集

频率为

的状态信息保留越多

门用于

前的信

重置

值越

否要结

1

窃电标签通过

该公司

的相关专家

析以及

场稽

得出

的信

息越多

GRU

结构图如图

1

所示

44218

条用户数据

其中存在窃电行为的用户数据有

,

@

为输入

"

:

隐藏层

的输出

,

GRU

3799条,

剩下的

40419

26

数据预处理

于用户

正常

用电

数据

元通过以下公式

(

1

%

-(

4

)

算得到

h

t

:

%

(

W

(

)

@

+

U

(

U?

h

t-

)

c

%

(

W

(

c

@

+

U

(r)

h

t-

)

h

tanh

(

U

h

t-

+

W

@

)

用户电

记录得

(

1

)

所以存在着大

量的

始数据集

失或异常等问题

。如何

(

2

)

的预处理是对用户

异常

用电进

要前提。

由于原

包含用

(

3

)

(

4

)

户的

历史

h

:

.

(

1

-

?

)

°

h

t

+

z

t

°

h

t_i

)

所以本文

用的

预处理方法主

31

技术方案

Technooogy

Scheme

数据通信20204

3

GRU

特征提取网络结构图

2

基于

Bagging

集成学习的用户异常用电模式检测模型流程图

M

i

1

阶的矩阵;

GRU

层中

t

步表示为

为数据的填充以及异常值处理

时刻缺失

的平均值作为

5

)

4

q

GRU

(

h

:

1

Xt

om

:

[

1

,

M

]

输出经过特征提

取后的

F

作为

模型的输入

24

平衡

数据处理

的记录

采用

时刻的正常

@

二丄

%

@

其中平均值的计算方式如公式

(

5

)

V

*

(

电行为检测的研究中

由于

正存在

电行

为的用户的

@是第:时刻

的数据值

c

为前相邻

存在

分布不

用电

类样

时刻的正常数据的记录数

o

处理异常值的方法与处理

衡的现象

女口

接使用

失值的方法类似

,

当发现异常数据时

,

同样采用相邻

时刻的正常数据的平均值作为替换异常值

24

GRU

征提

取网络

用户的窃电行为预测

则很容易

m

模型发生过拟合等

的效果

目前

有学者使用随机

采样的方法来解决

平衡的问题

但是

在抽样过程中可能丢失一些具有较强判断性的样本导

在窃电行为检

列是

程中

电力用户的历史

致无法得

的预测结果

本文将引入

SMOTE

算法

的存在

电行为的用户

本添加到数

的输入

DNN

处理历史

的建模分析用户用电

模式可以有效地检测用户的窃电行为

常规机器学习

抽样

并将抽样的

的方法和

为从

集中

提高少数类样本的比例

使用

SMOTE

衡的流程如下

始数据中选取

例如选取前

1h

算法解决用户

时刻的负荷值等

历史

列中潜在的内部联系

取的特征会

结果

(

1

)

对于存在窃电行为的每一个数据样本

@

=

K

近邻

(

KNN

)

[⑸算法得到样本@=的

k

个近邻的样

本数据

难度

o

征选取的方法

(

2

)

从这%个样本数据中随机选择其中的一个

列的特征提取

由于

GRU

内部的门控循环

X

i(nn)

为了解决上述问题

本文使用

GRU

神经网络进行

历史

(

3

)

生成一个

0

1

之间的随机数$

1

根据公

式⑹成

结构能自动从历史

中学

无须

(

为提取

方法更加简单易实施

同时

提高

@

+$

0

1

-

(

@

(nn)

6

)

的精度

GRU

特征提取网络的结构如图

3

所示

,

(

4

)

将步骤

(

2

)

-(

3

)

N

N

以历史

X

作为

GRU

网络的输入

F

个新的样本,

N

即是根据采样比例确定的采样倍率

(

5

)

N

GRU

网络的

o

网络的输入数据为

M

个历史电力负荷数据

X

[

@

1

@

2

.

母个样

乂上站

$

R

输入

Hx1

即可产生新的平衡训练集

将一个窃电样本数据表示为

@

(

6

,

4

),

32

技术方案

2020.4数据通信

本数据为

K

.

(5,2)

Tech

no

logy

Scheme

M

1

算得到的其中

机产生一个介

0

1

之间的随机数

$,

1

0.3

则新

电样

计算过程为

Score

-

2

*

precision

*

recall

precision

+

recall

厨)

其中

,

precision

为查准率

recall

为查全率

-

Score

@

new

(

=

)

+

$

0

,

1

(

g

-@

)

(

6

,

4

)

+0.

3

((

5

,

2

)

-

(

6,4

))

(

7

)

,

SMOTE

算法基于插值

增大

值同时

考虑

了查准率与

全率

,

可以更

地评

分类器的优劣

值越大

,

代表分类效果

有在

(

6

,

4

)

+0.3

x

(

-

1

,

-2

)

(

5.

7

,

3.

4

)

类样

出现的概率

precision

recall

都较大时

F1

-

Score

才会相应的较

即令

:

有效的

适用于用户

异常

用电行为的

测模型

pecosisrn

26

GRU-Bagging

预测模型

GRU

-

Bagging

模型的结构如图

4

所示

,

模型

中矩阵

X

历史

络处理后的

的输入

TP

~

TP

+

FP

TP

TP

+

FN

(

10

)

recall

入矩阵经过

GRU

特征提取网

,

X

作为不平衡数据集处理

SMOTE

3

算例分析

36

模型参数对预测效果的影响

以决

有效地

H

表示不平衡数据处理后的输出

作为

H

中有放回

Bagging

集成学习模型的输入

然后从

为基分类器的

Bagging

集成学习模型能

N

次随机采样

N

个基学习器

的数据利用决策树

用户类别时

,

高的类别

是对

Bagging

算法

参数

本文

7

10

50

100

200

300

400

500

个决

其中取得

为要集

即作为用户的最

类别

成的基分类

(

RecaH)

(

Accuacy)

分类器分类

的质量

实验

果如图

5

所示

在传统的用户

异常

用电行为检测的

研究

相关

学者大都采

为分类

好坏的评

标准,

分类器更

将结果

但由于不平衡

为多数类

而获得较高的

,

是在

类的分类器并不是

我们

想要的

以仅将分类

为唯一的评价指标是

(

RecaH)

,

除分类精度之外

,

本文同时

AUC

以及

M

1

-

Score

作为分类器的评价指标

这些指

都基于分类评价中常用的

(

1

所示

)

5

模型参数对比试验结果图

5

分类模型的

,

,

上升

率和

结合

本文

,

类和负类分别

表窃电用户和非窃电

用户

1

混淆矩阵

率有显著的提升

并趋于稳定

当决

500

率为

85.1%,

召回率为

正类

预测负类

FN

实际正类

实际负类

TP

FP

93.

6%

本文将

Bagging

成模型的基分类

数设置为

500

°

36

特征提取对预测效果的影响

TN

M

1

-

Score

是一种不平衡数据分类问题的评价准

其计算方式如公式

(

8

)

V

:

本文

所提特征选

方法

的有效性

33

技术方案

Technooogy

Scheme

文献

-

16

提出的

6

个特征

文献

-

10

使

用的

LSTM

经网络

数据通信

2020.4

36

与传统算法模型的对比

为了检验

本文所

提出的

GRU

-

Bagging

型的分

类性能,通

征选

得出的特征

-

7

提出的

14

征以及采

本文所

方法

征选择

后所得的

逻辑回归

(LR

)

算法

和经典

SVM

模型的预测赠所产生的影响

由于为

实验

算法构

的用户

异常

征选

方法

特征维数差异较大

,

用电

式检测模型在

如表

4

所示

上的预测结果

o

分类模型的

时间产生较大影响

所以本次

实验加入时间

(Time

)

作为评价特征选择

方法

的评价指

4

分类器性能对比实验结果

分类器

LR

SVM

结果如表

2

所示

Accuraco

0.7436

Recall

0.8302

0.9129

0.9534

AUC

F1

-

Score

2

中的

的人为选取的特

使

用文献

-7

和文献

-

16

提出

的分类模型在分类上均

是为

0.7425

0.8338

0.8604

0.7664

0.8348

0.8617

0.8421

0.8747

用神经网络

征选

方法差

本文算法

特征

经网络

方法少

所以

时间

上占一定优势

o

4

看出

Baggmg

作为分类器的用户

用电检测模型在

分类器的评

文献

-

10

提出的

LSTM

神经网络

在分类效果上有

上均好于

特征选

方法

文所提的

方法

LR

SVM

方法

证明本文所

GRU

-

Bagging

模型

用电用户是

否存

电行为时具有更高的准确率

提升

,

更是

低了模型的训练时间

使得

本文

提出的

GRU

-

Bagging

型在高

维数据集

上有更优

异的表现

2

特征提取方法对比实验结果

碗选择+法

Accuraco

0.

7636

Time

(

h

)

Recall

AUC

0.

7534

F1

-

Score

4

结论

本文

提出了一

种基于

GRU

-

Bagging

模型

的用户

文献

7

文献

10

文献

16

本文方法

0.

7822

0.

9521

0.7634

0.9534

0.7771

0.8736

0.6

2.7

0.8

0.8604

0.

8592

0.

7428

异常

用电行为

测模型

检测判

的用户数据

0.7411

0.

8617

0.517

0.8747

异常

用电行为的用户

利用

中提取多个有

0.

8604

1.2

GRU

结构

递归神经网络

从历史

36

不平衡数据集对预测效果的影响

为了检测本文所提不平衡数据集处理方法

的有效

性,选择常

用的随

机欠采样方法以及不经过任何处理

的原

为对比

Bagging

效表

用户用电习惯的特

;

然后使用

SMOTE

算法

电用户在数据

中的比例

;

最后训

练以决

为基分类器的

Bagging

学习模型

o

置多组对比实验

本文

提出的特征提

用电用户是

否存

电行为(仅

法能有效提取出刻画用户的用电行为特

相比

集的处理方

,其余

处理

特征择过程均

LSTM

方法

具有更高的效率

利用

SMOTE

算法

能有效

解决不平衡数据集

来的窃

电用户

误检

漏检等问题

,

GRU-Bagging

有效地

用户的

全一

)

处理方式

不作处理

如口表

3

所示

3

不平衡数据集不同处理方式的对比实验结果

Accuraco

0.9690

0.6636

Recall

AUC

F1

-

Score

否存

电行为

"

法获

取用户

电标签

,

0.

1041

0.7022

0.

9534

0.5496

0.6634

0.8604

0.1802

于现有的

随机欠采样

本文方法

0.6771

0.8747

我们

适用性

将研究本文所

模型

在无标

签数据集

中的

提高

异常

用电检测

型的普适性

0.

8617

3

中的

,

本文提出

方法处理不

平衡数据后的模型除分类

如正负样本比例严重

参考文献

的不作处理

集外

其他结果都

处理

者采取随机欠采样方法处

结果高

,

这是因

本文

方法

异常

用电用户的

-

1

.郝然

艾苹

肖斐.基于多元大数据平台的用电行为分析

研究

J

.

电力自动化设备

2017

,

37

(

08

)

:

20

-

27

通过提升

算法

分类器的学

成学习

分类器之间的

并降低

Baging

终让

模型在

-

2

,

,

千里

等.基于过程

状态网络的电

(下转第

38

页)

力用户用电模式分类研究

J

.

电网技术

2015

,

39

(

12

)

:

3563

-

3569

异常

用电行为

时有更佳效!

o

34

技术交流

Technology

Discussion

,

2016

(

7

)

*

21

-24.

[

4

]

数据通信

20206

Proceedings

of

te

Ninth

ACM

Symposium

on

Access

Control

-

6

.屠文.网络安全

方法的应用研究

[

J

]

电子技术与

Models

and

TechnoTgies

,

2014.6

软件工程

,

2013

(

22

)

*

224

-

228

-

7

.韩

等.网络安全态势感知理论与技术综述及难点问

题研究

[

J].

信息安全与通信保密

,

2019

(

7

)

*

65

-

70

-

8

]

Dinunock

N.

BeTkosztoTzki

A.

Eyers

D.

et

al.

Using

Trust

and

Risk

in

Role

based

Access

Control

Policies

,

In

作者简介:王海涛

1976

年生

博士,计算机学会高级会员,

京审计大学金审学院信息科学与工程学院副教授

研究方向为

无线自组网、

网络安全

大数据和人工智能

#

(上接第

34

页)

-

3

]杨德昌,

赵肖余

何绍文

等.面向海量用户用电数据的

集成负荷预测[

J

]

电网技术

2018

,

42

(

09

)

*

2923

-

2929

为模式检测

[

J].

电网技术

2017

,

41

(

06

)

:

1964

-1973

[

11

]

文清,沈哲吉

李刚.基于深度学习的用户异常用电模式

-

4

]

Nizae

A

H

,

Dong

l

Y

,

Wang

Y

.

Power

Uplim

Nontechnical

Loss

Analysis

With

Extreme

Learning

Machine

Method

-

J

].

IEEE

Transactions

on

Power

Systems

,

2008

,

23

(

3

)

0

-955

检测

[

J].

电力自动化设备

,

2018

,

38

(

09

)

*

34

-

38

[

12

]

Hochreiter

S

,

Schmidhuber

J.

Long

short

-

Wo

memory

-

J

]

.

Neuml

Computation

,

1997

,

9

(

8

)

:

1735

-

1780

[

5

]

Nagn

,

Jawad

,

Yap

,

Keem

Snah

,

Tnong

,

Sneh

Knong

,

e:al

.

NontechnicC

Loss

Detection

for

Metered

Customers

in

P

owcs

[

13

]

Cho

,

Kyunghyun

,

van

Meyienboee

,

Bari

,

Gulcehre

,

Caglao

,

e

al

.LeaenongPheaseRepeeseneaeoonsusongRNNEnoodee-

DeoodeefoeSeaeoseooaAMaohoneTeansaeoon

[

J

]

.Compueee

UPIV

p

Using

Suppoi

Vector

Machines

[

J

]

.

IEEE

Transactions

on

P

owcs

Delivery

,

25(2)

:

1162

-1171

-

6

]

Inico

Monedero

,

Felin

Biscarri

,

Carlos

Leon

,

ee

al

Detection

Sooenoe

,

2014

[

14

]

Bhowan

U

,

Johnston

M

,

Zhang

M

,

et

al

.

Reusing

Genetic

Peogeammong

foe

Ensemb

e

Seeoeoon

on

Casofooaeoon

of

of

frauds

and

othee

non

-

technical

losses

in

a

powee

utility

using

Pearson

coefficient

,

Bayesian

networks

and

decision

Unblanced

Data

-

J

]

.

IEEE

Transactions

on

EvLutionara

pees

[

J

]

.

Internalona

Jouml

of

Elechicai

P

owcs

and

Energy

Syseems

,

2011

,

34

(

1

)

CompuWWon

,

2014

,

18

(

6

)

:

893

-908

[

15

]

T.

M.

Coveo

,

P.

E.

Hah.

Nearest

Neighbor

Pattern

Clvsmcagon

-

7

]庄池杰

张斌

胡军

等•基于无监督学习的电力用户异

常用电模式检测

[

J

]・

中国电机工程学报

,

2016

,

36

(

02

)

:

379-387

[

J].

HEE

Trans,

in.

Weoa

,

1967

,

13

(

1

)

:

21

-27

[

16

]

李康平,严玉廷,

等•基于密度空

类和引力搜索

算法的居

用电模式分类模型

[

J

]

.

电力自动

,

-

8

.田力

向敏基于密度聚类技术的电力系统用电量异常分

析算法

[

J

]・电力系统自动化

,

2017

,

41

(

05

)

:

64-70

2018

,

38

(

01

)

:

129

-

136

-

9

.康宁宁

李川

曾虎,

采用

FCM

聚类

SVR

模型

作者简介:第一作者及通讯作者:马云波

(

1995

-

),

硕士研究

主要研究方向为数据挖掘和机器学习

E-mll

807779380

@

qq.

com.

的窃电行为检测

[

J

]

电子测量与仪器学报

,

2017

,

31

(

12

)*

2023 -

2029

[

10

]

许刚

谈元鹏

,

戴腾辉.稀疏随机森林下的用电侧异常行

38


发布者:admin,转转请注明出处:http://www.yc00.com/web/1712942785a2152552.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信