基于模型融合的贷款违约预测模型研究

基于模型融合的贷款违约预测模型研究


2024年4月12日发(作者:)

2023年第03期

(总第243期)

基于模型融合的贷款违约预测模型研究

李若琳,宫义山

(沈阳工业大学信息科学与工程学院,辽宁沈阳

110870

)

摘要:在银行贷款服务中,用户的违约行为对于银行来说存在着信用风险损失。用户的相关指标与是否会发生违约行为

有着一定关系。针对贷款违约问题,文章提出基于模型融合的贷款违约预测模型,通过预测模型预测用户违约情况,从

而降低损失风险。文章基于天池贷款违约预测大赛的数据集,对其数据进行数据分析、处理及数据类型转换等工作,确

定违约相关的主要特征,包括贷款金额、贷款期限、贷款利率、分期付款金额、贷款等级、就业年限、年收入、债务收入比

等。基于对各类模型的比较,文章选取XGBoost和LightGBM算法,引入FocalLoss损失函数,通过Stacking方法进行

融合,搭建出FL-XGBoost-LightGBM违约预测模型。实验表明,引入FocalLoss损失函数的模型精度优于未引入损失

函数模型精度;引入FocalLoss损失函数的融合后的模型精度比单一模型的精度高,取得最好的预测结果。

关键词:违约预测;模型融合;集成算法;FocalLoss

中图分类号:TP181文献标识码:A文章编号:2096-9759(2023)03-0065-03

ResearchonLoanDefaultPredictionModelBasedonModelFusion

LIRuolin,GONGYishan

(

SchoolofInformationScienceandEngineering,ShenyangUniversityofTechnology,Shenyang110870,Liaoning

)

Abstract:Inbankloanservices,thereisacreditrisklossforthebankfortheuser'r'smetricshavearelationship

attheproblemofloandefault,thispaperproposesaloandefaultpredictionmodel

basedonmodelfusion,whichpredictsuserdefaultthroughthepredictionmodel,nthe

datasetoftheTianchiLoanDefaultPredictionCompetition,thispaperanalyzes,processesandconvertsthedatatodetermine

themaincharacteristicsrelatedtodefault,includingloanamount,loanterm,loaninterestrate,installmentamount,loangrade,

employmentperiod,annualincome,debt-to-incomeratio,nthecomparisonofvariousmodels,thispaperselects

XGBoostandLightGBMalgorithms,introducestheFocalLosslossfunction,andintegratesthemthroughthestackingmethod

mentsshowthattheaccuracyofthemodelwithFocal

uracyofthefusedmodelwithFocalLossloss

functionishigherthanthatofasinglemodel,andthebestpredictionresultsareobtained.

Keyword:DefaultPrediction;ModelFusion;IntegrationAlgorithm;FocalLoss

0

引言

贷款一直在金融界发挥着重要作用,信用卡的使用已经

成为当代银行和金融系统的一个组成部分。随着信息网络的

进步,贷款不再是银行专属的业务,各种支付软件也提供了借

贷服务,信贷和生活方式越来越密不可分。2022年三季度末,

人民币各项贷款余额2107600亿元,同比增长百分之十一点

二;前三季度人民币贷款增加180800亿元,同比增13600亿

元。从以上数据可知,贷款是我国经济发展不可缺失的一部

分,因此控制贷款发放以及对于用户的贷款违约情况预测是

非常重要的。对金融机构来说,预测潜在的信用卡违约者或

债务人是一个至关重要的商机,然而它确实带有很大的风险。

[

1

]

这在贷款领域被称为信用风险。

多年来,机器学习算法一直被用来通过评估个人的历史

数据来计算和预测信用风险。国内外学者对于贷款违约预测

模型进行了大量研究。

(1)在数据层面,李占玉采取SMOTE算法结合随机森林

相算法搭建财务风险评估模型,取得了良好的预测效果

[

2

]

。Han

[

3

]

等就SMOTE方法在生成新样本的过程中存在着样本重叠问

题提出了边界合成少数类过采样算法,优化了该问题。混合

采样方法在不平衡数据问题上应用,克服了过采样和欠采样

的缺点,减轻了边界模糊问题

[

4

]

[

5

]

(2)在模型层面,ChenT等(2016)在GBDT发展的基础

上发明了XGBoost算法,即一种基于Boosting类别的集成决

策树算法。张晟(2020

)

对互联网P2P借贷平台的数据中的违

规用户进行画像分析时,发现AUC值得分由高到低分别是随

机森林算法,XGBoost算法、投票分类算法

[

6

]

。沙一诺(2021)

[

7

]

发现XGBoost和LightGBM模型的预测效果较好。

基于以上研究成果,本文提出一种基于SMOTETomek-

Link混合采样方法、FocalLoss损失函数分别改进XGBoost算

法(FL-XGBoost)和LightGBM算法(FL-LightGBM),后通过

Stacking方法融合的贷款违约预测模型(FocalLoss-XGBoost-

LightGBM,FL-XGBoost-LightGBM),对贷款进行违约预测。

1

相关理论介绍

1.1XGBoost

算法

XGBoost算法是由华盛顿大学TianqiChen和Carlos

Guestrin在2016年提出的一种梯度提升算法

[

5

]

,是基于GBDT

(GradientBoostingDecisionTree)算法提出的,是对其改进的

[

8

]

算法。XGBoost算法具有鲁棒性强、运行速度快、预测精度

收稿日期:2022-12-24

作者简介:李若琳(1998-)女,辽宁营口人,研究生,硕士。主要研究方向:智能信息处理;宫义山(1964-

)

男,博士,教授,硕士生导师,主要研

究方向:计算机及应用,信息融合理论及应用。

65

Copyright©博看网. All Rights Reserved.

ChangjiangInformation&Communications李若琳等:基于模型融合的贷款违约预测模型研究

表1部分变量介绍

变量

loanAmnt

term

grade

subGrade

employmentLength

dti

变量描述

贷款金额

贷款期限

贷款等级

贷款等级之子级

就业年限(年)

债务收入比

变量类型

数值型

数值型

类型数

类型数

日期变量

数值型

对于具有n个示例和m个特征的给定数据集D=高等优点。

{(

x

i

,y

i

)}(

|D|=n,x

i

∈R

m

,y

i

∈R),一个树模型使用K个可加函数

来预测输出,即XGBoost原始模型,见式(1)。

(1)

其中,

是损失函数,y

i

为实际值,

首先进行数据预处理,通过查看数据发现,数据集存在数

据缺失问题。对此问题采取数值填充方法,分别利用中位数

和众数填充数值特征变量和类别特征变量。然后进行数据类

型转换,将类别类型变量包括grade、subGrade、employmentLe-

ngth、earliesCreditLine转换为数值类型变量。

各变量之间差距大而无法比较,对变量进行极值归一化,

公式为:。通过查看所有变量训练集和测试

集数据的分布情况,发现id列相关性不强,删除id列。通过

查看特征变量与‘isDefault’列线性回归关系以及相关热力图,

其中‘isDefault’为标签列,最后筛选出42个变量。在采样过

程中,发现正负样本比例约为5:1,不平衡。对于该问题采取

SMOTETomek综合采样。综合采样后,样本平衡。

以上,完成了数据预处理,下面开始进行建模调参。

3.2

建模调参

本实验采取FL-XGBoost算法、FL-LightGBM算法,网格

搜索(GirdSearch)方法进行参数调节。网格搜索的原理是通过

查找所有的点、较大的搜索范围和较小的步长来确定最优值

[

13

]

FL-XGBoost和FL-LightGBM算法的参数最优值如表2所示。

表2参数最优值

FL-XGBoost

参数

gamma

max_depth

min_depth

reg_alpha

reg_lambda

learning_rate

参数值

0.1

9

3

2

0.1

0.07

FL-LightGBM

参数

n_estimators

max_depth

min_depth

reg_alpha

reg_lambda

feature_fraction

参数值

6

4

20

0.8

2

0.6

*

,其中y为输出,H(x)为估计函数,H(x)是使损失

函数期望最小的函数,见式(4)。

(4)

LigntGBM的运行速度快,性能超强,能够用于分类、回归、

聚类等多种问题。

2FL-XGBoost

FL-LightGBM

算法

FocalLoss(FL)是由Tsung-YiLin等人就目标检测模型

[

12

]

RetinaNet时被提出用来解决正负样本不平衡问题,引入类别

权重因子和系数,优化样本权重,进而提高模型准确率,见式

(5)。

(5)

其中,p

t

是预测概率,(-p

t

)表示权重,-p

t

)越接近0,预测

越准确。相反,越接近1,预测越不准确。

FL-XGBoost算法与FL-LightGBM算法将FocalLoss损

失函数作为XGBoost和LightGBM算法的损失函数。改变权

重因子和系数进而更改样本权重,使得模型多注重少数类、难

分类样本,进而优化了样本不平衡问题,模型准确率得到了提

高。

将FL-XGBoost与FL-LightGBM算法通过Stacking方法

进行融合,每个基模型都采取五折交叉验证训练。

3.3

评价指标

混淆矩阵又称误差矩阵,见表3。

表3混淆矩阵

预测结果

正例

实际结果

正例

负例

真正例

(

TP

)

假正例(

FP

负例

假反例(

FN

真反例(

TN

3

实证分析

3.1

实验数据集及预处理

本实验数据来源于天池贷款大赛的数据集,其源于某信

贷平台的贷款记录,包含47列变量信息,包括id、loanAmnt、

term等。同时进行脱敏处理,包括employmentTitle、purpose等

列,部分变量介绍见表1。数据集总数量超120万条,按4:1:1

的比例分为训练集、测试集A和测试集B。

在本实验中,正例表示及时还款,记作0;负例表示违约,记作

1。TP即正例被预测为正例的样本;FP即正例被预测为

负例的样本;FN即负例被预测为正例的样本;TN即负例

被预测为负例的样本。

准确率(ACC)表示在分类过程中,对分类正确占总记录个数

的比例,公式为:

66

PDF created with pdfFactory Pro trial version

Copyright©博看网. All Rights Reserved.

2023年第03期

(总第243期)

基于深度学习的冬虫夏草品质鉴定

范馨仪,杨晨,王娇,谢鑫焱

(西藏大学信息科学技术学院,西藏拉萨

850000

摘要:针对目前市面上的虫草参差不齐以及以次充好的问题,文章在自建冬虫夏草品质数据集的基础上,采用深度学习

的方式来鉴定虫草品质。首先收集了3种不同品质的虫草图像样本,共计4500张,为了使模型拥有更好的泛化能力,使

用图像增强策略扩充数据集。然后训练ResNet模型并部署在智能开发板-JetsonNano上,实现虫草品质的智能鉴定。实

验结果表明:该模型的准确率为96.20%。

关键词:冬虫夏草品质;深度学习;智能鉴定;ResNet

中图分类号:TP391.41文献标识码:A文章编号:2096-9759(2023)03-0067-03

1

引言

冬虫夏草是青藏高原特有的生物资源,现代医学证明,冬

虫夏草具有免疫调节、抗衰老、抗肿瘤等广泛的药理作用,因此

受到了广大群众的喜爱。冬虫夏草的品质优劣是确定药效的

基础,然而现今,市面上冬虫夏草的品质往往参差不齐,同时冬

虫夏草也因大小、虫体所占比例,色泽,气味分为不同等级,这

就需要对购买的冬虫夏草进行品质鉴定。目前,国内尚无成熟

全面高效的冬虫夏草品质鉴定机制,对于消费者而言,识别不

同品质冬虫夏草仍存在较大问题。基于虫草外形特征的观察

识别仍是鉴定虫草品质的快速方法,因此,本文利用深度学习

采用卷积神经网络对冬虫夏草品质进行鉴定。同时,在建立冬

虫夏草品质数据库的过程中,对冬虫夏草品质数据集进行图像

增强策略,之后结合分类网络模型进行训练,并将训练好的模

型通过剪枝后部署在硬件平台-JetsonNano上,实现在虫草品

收稿日期:2023-02-10

基金项目:西藏大学大学生创新创业训练计划项目,编号:2022XCX079。

作者简介:范馨仪(2003-),女,四川眉山人,在读本科生,专业:计算机科学与技术。

代表假正率(FPR)即ROC曲线的横坐标,公式为:

。ROC曲线下与

x轴围成的面积即AUC值。

3.4

实验分析

通过实验,得出SOMTETomek平衡数据前后的XGBoost

算法和LightGBM算法、FL-XGBoost算法、FL-LightGBM算

法、FL-XGBoost-LightGBM算法的F1值和AUC值,见表4。

表4结果对比

算法

XGBoost

LightGBM

FL-XGBoost

FL-LightGBM

FL-XGBoost-LightGBM

ACC

0.8518

0.8538

0.8797

0.8778

+/-0.18

0.85

AUC

0.8798

0.8286

0.9324

0.9095

0.9265

对比可知,FL-XGBoost-LightGBM较XGBoost模型相比AUC

值提高了0.0467,较LightGBM模型相比提高了0.0979。可知,经

过网格调参后的融合模型效果比单一模型对于违约预测更加准确。

4

结语

针对贷款违约预测问题,本文利用SMOTETomek平衡正

负样本,选取引入FocalLoss函数的XGBoost算法和LightGBM

算法,通过网格调参方法确定参数值,然后利用Stacking方法将

两种算法融合。通过比较评估效果,发现融合后的模型较融合

前的模型相比,其对违约识别的AUC更高,取得了较好的模型

效果。

参考文献:

[

1

]

AslamU,AzizHIT,SohailAandBatchaNK2019Anem-

piricalstudyonloandefaultpredictionmodelsJournalof

ComputationalandTheoreticalNanoscience16pp3483-8.

[

2

]

李玉占.基于SMOTE-随机森林的互联网金融公司财务

风险预警模型

[

J

]

.经济研究导刊,2020

(

33

)

:79-80.

[

3

]

HANH,WANGWY,-line-SMOTE:anew

over-samplingmethodinimbalanceddatasetslearning[C]//

Proceedingsofthe2005InternationalConferenceonIntelligent

Computing,:Springer,2005:878-887.

[

4

]

王乐,韩萌,李晓娟,等.不平衡数据集分类方法综述.计算机

工程与应用,2021,57

(

22

)

:42-52.

[

5

]

CHENTQ,t:Ascalabletreeboos-

tingsystem

[

C

]

.22ndACMSIGKDDInternationalConfer-

enceonKnowledgeDiscoveryandDataMining,SanFran-

cisco,USA:AssociationforComputingMachinery.

[

6

]

张晟.基于集成学习的P2P网贷违约客户识别实证研究

[

D

]

.安徽财经大学,2020.

[

7

]

沙一诺.基于数据挖掘的企业债券违约风险预测

[

D

]

:

[

士学位论文

]

.上海:上海师范学,2021.

[

8

]

容钰添.基于XGBoost集成方法的推荐算法研究

[

D

]

,2016.

[

9

]

肖宇,赵建有,叱干都,刘清云.基于XGBoost的短时出租车

速度预测模型

[

J

]

.交通信息与安全,2022,40

(

03

)

:163-170.

[

10

]

KeG,MengQ,FinleyT,bm:Ahighlyefficient

gradientboostingdecisiontree

[

C

]

//AdvancesinNeuralIn-

formationProcessingSystems.2017:3146-3154.

[

11

]

颜诗旋,朱平,刘钊.基于改进LightGBM模型的汽车故

障预测方法研究

[

J

]

.汽车工程,2020,42

(

6

)

:815-819,825.

[

12

]

Tsung-YiLin,PriyaGoyal,RossGirshick,KaimingHe,Piotr

Dollar;ProceedingsoftheIEEEInternationalConferenceon

ComputerVision

(

ICCV

)

,2017,pp.2980-2988.

[

13

]

刘佳星.基于网格搜索超参数优化的支持向量回归

[

J

]

.科学

技术创新,2022

(

13

)

:71-74.

67

Copyright©博看网. All Rights Reserved.


发布者:admin,转转请注明出处:http://www.yc00.com/web/1712936113a2151295.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信