2024年4月12日发(作者:)
2023年第03期
(总第243期)
基于模型融合的贷款违约预测模型研究
李若琳,宫义山
(沈阳工业大学信息科学与工程学院,辽宁沈阳
110870
)
摘要:在银行贷款服务中,用户的违约行为对于银行来说存在着信用风险损失。用户的相关指标与是否会发生违约行为
有着一定关系。针对贷款违约问题,文章提出基于模型融合的贷款违约预测模型,通过预测模型预测用户违约情况,从
而降低损失风险。文章基于天池贷款违约预测大赛的数据集,对其数据进行数据分析、处理及数据类型转换等工作,确
定违约相关的主要特征,包括贷款金额、贷款期限、贷款利率、分期付款金额、贷款等级、就业年限、年收入、债务收入比
等。基于对各类模型的比较,文章选取XGBoost和LightGBM算法,引入FocalLoss损失函数,通过Stacking方法进行
融合,搭建出FL-XGBoost-LightGBM违约预测模型。实验表明,引入FocalLoss损失函数的模型精度优于未引入损失
函数模型精度;引入FocalLoss损失函数的融合后的模型精度比单一模型的精度高,取得最好的预测结果。
关键词:违约预测;模型融合;集成算法;FocalLoss
中图分类号:TP181文献标识码:A文章编号:2096-9759(2023)03-0065-03
ResearchonLoanDefaultPredictionModelBasedonModelFusion
LIRuolin,GONGYishan
(
SchoolofInformationScienceandEngineering,ShenyangUniversityofTechnology,Shenyang110870,Liaoning
)
Abstract:Inbankloanservices,thereisacreditrisklossforthebankfortheuser'r'smetricshavearelationship
attheproblemofloandefault,thispaperproposesaloandefaultpredictionmodel
basedonmodelfusion,whichpredictsuserdefaultthroughthepredictionmodel,nthe
datasetoftheTianchiLoanDefaultPredictionCompetition,thispaperanalyzes,processesandconvertsthedatatodetermine
themaincharacteristicsrelatedtodefault,includingloanamount,loanterm,loaninterestrate,installmentamount,loangrade,
employmentperiod,annualincome,debt-to-incomeratio,nthecomparisonofvariousmodels,thispaperselects
XGBoostandLightGBMalgorithms,introducestheFocalLosslossfunction,andintegratesthemthroughthestackingmethod
mentsshowthattheaccuracyofthemodelwithFocal
uracyofthefusedmodelwithFocalLossloss
functionishigherthanthatofasinglemodel,andthebestpredictionresultsareobtained.
Keyword:DefaultPrediction;ModelFusion;IntegrationAlgorithm;FocalLoss
0
引言
贷款一直在金融界发挥着重要作用,信用卡的使用已经
成为当代银行和金融系统的一个组成部分。随着信息网络的
进步,贷款不再是银行专属的业务,各种支付软件也提供了借
贷服务,信贷和生活方式越来越密不可分。2022年三季度末,
人民币各项贷款余额2107600亿元,同比增长百分之十一点
二;前三季度人民币贷款增加180800亿元,同比增13600亿
元。从以上数据可知,贷款是我国经济发展不可缺失的一部
分,因此控制贷款发放以及对于用户的贷款违约情况预测是
非常重要的。对金融机构来说,预测潜在的信用卡违约者或
债务人是一个至关重要的商机,然而它确实带有很大的风险。
[
1
]
这在贷款领域被称为信用风险。
多年来,机器学习算法一直被用来通过评估个人的历史
数据来计算和预测信用风险。国内外学者对于贷款违约预测
模型进行了大量研究。
(1)在数据层面,李占玉采取SMOTE算法结合随机森林
相算法搭建财务风险评估模型,取得了良好的预测效果
[
2
]
。Han
[
3
]
等就SMOTE方法在生成新样本的过程中存在着样本重叠问
题提出了边界合成少数类过采样算法,优化了该问题。混合
采样方法在不平衡数据问题上应用,克服了过采样和欠采样
的缺点,减轻了边界模糊问题
[
4
]
。
[
5
]
(2)在模型层面,ChenT等(2016)在GBDT发展的基础
上发明了XGBoost算法,即一种基于Boosting类别的集成决
策树算法。张晟(2020
)
对互联网P2P借贷平台的数据中的违
规用户进行画像分析时,发现AUC值得分由高到低分别是随
机森林算法,XGBoost算法、投票分类算法
[
6
]
。沙一诺(2021)
[
7
]
发现XGBoost和LightGBM模型的预测效果较好。
基于以上研究成果,本文提出一种基于SMOTETomek-
Link混合采样方法、FocalLoss损失函数分别改进XGBoost算
法(FL-XGBoost)和LightGBM算法(FL-LightGBM),后通过
Stacking方法融合的贷款违约预测模型(FocalLoss-XGBoost-
LightGBM,FL-XGBoost-LightGBM),对贷款进行违约预测。
1
相关理论介绍
1.1XGBoost
算法
XGBoost算法是由华盛顿大学TianqiChen和Carlos
Guestrin在2016年提出的一种梯度提升算法
[
5
]
,是基于GBDT
(GradientBoostingDecisionTree)算法提出的,是对其改进的
[
8
]
算法。XGBoost算法具有鲁棒性强、运行速度快、预测精度
收稿日期:2022-12-24
作者简介:李若琳(1998-)女,辽宁营口人,研究生,硕士。主要研究方向:智能信息处理;宫义山(1964-
)
男,博士,教授,硕士生导师,主要研
究方向:计算机及应用,信息融合理论及应用。
65
Copyright©博看网. All Rights Reserved.
ChangjiangInformation&Communications李若琳等:基于模型融合的贷款违约预测模型研究
表1部分变量介绍
变量
loanAmnt
term
grade
subGrade
employmentLength
dti
变量描述
贷款金额
贷款期限
贷款等级
贷款等级之子级
就业年限(年)
债务收入比
变量类型
数值型
数值型
类型数
类型数
日期变量
数值型
对于具有n个示例和m个特征的给定数据集D=高等优点。
{(
x
i
,y
i
)}(
|D|=n,x
i
∈R
m
,y
i
∈R),一个树模型使用K个可加函数
来预测输出,即XGBoost原始模型,见式(1)。
(1)
其中,
是损失函数,y
i
为实际值,
首先进行数据预处理,通过查看数据发现,数据集存在数
据缺失问题。对此问题采取数值填充方法,分别利用中位数
和众数填充数值特征变量和类别特征变量。然后进行数据类
型转换,将类别类型变量包括grade、subGrade、employmentLe-
ngth、earliesCreditLine转换为数值类型变量。
各变量之间差距大而无法比较,对变量进行极值归一化,
公式为:。通过查看所有变量训练集和测试
集数据的分布情况,发现id列相关性不强,删除id列。通过
查看特征变量与‘isDefault’列线性回归关系以及相关热力图,
其中‘isDefault’为标签列,最后筛选出42个变量。在采样过
程中,发现正负样本比例约为5:1,不平衡。对于该问题采取
SMOTETomek综合采样。综合采样后,样本平衡。
以上,完成了数据预处理,下面开始进行建模调参。
3.2
建模调参
本实验采取FL-XGBoost算法、FL-LightGBM算法,网格
搜索(GirdSearch)方法进行参数调节。网格搜索的原理是通过
查找所有的点、较大的搜索范围和较小的步长来确定最优值
[
13
]
。
FL-XGBoost和FL-LightGBM算法的参数最优值如表2所示。
表2参数最优值
FL-XGBoost
参数
gamma
max_depth
min_depth
reg_alpha
reg_lambda
learning_rate
参数值
0.1
9
3
2
0.1
0.07
FL-LightGBM
参数
n_estimators
max_depth
min_depth
reg_alpha
reg_lambda
feature_fraction
参数值
6
4
20
0.8
2
0.6
*
,其中y为输出,H(x)为估计函数,H(x)是使损失
函数期望最小的函数,见式(4)。
(4)
LigntGBM的运行速度快,性能超强,能够用于分类、回归、
聚类等多种问题。
2FL-XGBoost
与
FL-LightGBM
算法
FocalLoss(FL)是由Tsung-YiLin等人就目标检测模型
[
12
]
RetinaNet时被提出用来解决正负样本不平衡问题,引入类别
权重因子和系数,优化样本权重,进而提高模型准确率,见式
(5)。
(5)
其中,p
t
是预测概率,(-p
t
)表示权重,-p
t
)越接近0,预测
越准确。相反,越接近1,预测越不准确。
FL-XGBoost算法与FL-LightGBM算法将FocalLoss损
失函数作为XGBoost和LightGBM算法的损失函数。改变权
重因子和系数进而更改样本权重,使得模型多注重少数类、难
分类样本,进而优化了样本不平衡问题,模型准确率得到了提
高。
将FL-XGBoost与FL-LightGBM算法通过Stacking方法
进行融合,每个基模型都采取五折交叉验证训练。
3.3
评价指标
混淆矩阵又称误差矩阵,见表3。
表3混淆矩阵
预测结果
正例
实际结果
正例
负例
真正例
(
TP
)
假正例(
FP
)
负例
假反例(
FN
)
真反例(
TN
)
3
实证分析
3.1
实验数据集及预处理
本实验数据来源于天池贷款大赛的数据集,其源于某信
贷平台的贷款记录,包含47列变量信息,包括id、loanAmnt、
term等。同时进行脱敏处理,包括employmentTitle、purpose等
列,部分变量介绍见表1。数据集总数量超120万条,按4:1:1
的比例分为训练集、测试集A和测试集B。
在本实验中,正例表示及时还款,记作0;负例表示违约,记作
1。TP即正例被预测为正例的样本;FP即正例被预测为
负例的样本;FN即负例被预测为正例的样本;TN即负例
被预测为负例的样本。
准确率(ACC)表示在分类过程中,对分类正确占总记录个数
的比例,公式为:
66
PDF created with pdfFactory Pro trial version
Copyright©博看网. All Rights Reserved.
2023年第03期
(总第243期)
基于深度学习的冬虫夏草品质鉴定
范馨仪,杨晨,王娇,谢鑫焱
(西藏大学信息科学技术学院,西藏拉萨
850000
)
摘要:针对目前市面上的虫草参差不齐以及以次充好的问题,文章在自建冬虫夏草品质数据集的基础上,采用深度学习
的方式来鉴定虫草品质。首先收集了3种不同品质的虫草图像样本,共计4500张,为了使模型拥有更好的泛化能力,使
用图像增强策略扩充数据集。然后训练ResNet模型并部署在智能开发板-JetsonNano上,实现虫草品质的智能鉴定。实
验结果表明:该模型的准确率为96.20%。
关键词:冬虫夏草品质;深度学习;智能鉴定;ResNet
中图分类号:TP391.41文献标识码:A文章编号:2096-9759(2023)03-0067-03
1
引言
冬虫夏草是青藏高原特有的生物资源,现代医学证明,冬
虫夏草具有免疫调节、抗衰老、抗肿瘤等广泛的药理作用,因此
受到了广大群众的喜爱。冬虫夏草的品质优劣是确定药效的
基础,然而现今,市面上冬虫夏草的品质往往参差不齐,同时冬
虫夏草也因大小、虫体所占比例,色泽,气味分为不同等级,这
就需要对购买的冬虫夏草进行品质鉴定。目前,国内尚无成熟
全面高效的冬虫夏草品质鉴定机制,对于消费者而言,识别不
同品质冬虫夏草仍存在较大问题。基于虫草外形特征的观察
识别仍是鉴定虫草品质的快速方法,因此,本文利用深度学习
采用卷积神经网络对冬虫夏草品质进行鉴定。同时,在建立冬
虫夏草品质数据库的过程中,对冬虫夏草品质数据集进行图像
增强策略,之后结合分类网络模型进行训练,并将训练好的模
型通过剪枝后部署在硬件平台-JetsonNano上,实现在虫草品
收稿日期:2023-02-10
基金项目:西藏大学大学生创新创业训练计划项目,编号:2022XCX079。
作者简介:范馨仪(2003-),女,四川眉山人,在读本科生,专业:计算机科学与技术。
代表假正率(FPR)即ROC曲线的横坐标,公式为:
。ROC曲线下与
x轴围成的面积即AUC值。
3.4
实验分析
通过实验,得出SOMTETomek平衡数据前后的XGBoost
算法和LightGBM算法、FL-XGBoost算法、FL-LightGBM算
法、FL-XGBoost-LightGBM算法的F1值和AUC值,见表4。
表4结果对比
算法
XGBoost
LightGBM
FL-XGBoost
FL-LightGBM
FL-XGBoost-LightGBM
ACC
0.8518
0.8538
0.8797
0.8778
(
+/-0.18
)
0.85
AUC
0.8798
0.8286
0.9324
0.9095
0.9265
对比可知,FL-XGBoost-LightGBM较XGBoost模型相比AUC
值提高了0.0467,较LightGBM模型相比提高了0.0979。可知,经
过网格调参后的融合模型效果比单一模型对于违约预测更加准确。
4
结语
针对贷款违约预测问题,本文利用SMOTETomek平衡正
负样本,选取引入FocalLoss函数的XGBoost算法和LightGBM
算法,通过网格调参方法确定参数值,然后利用Stacking方法将
两种算法融合。通过比较评估效果,发现融合后的模型较融合
前的模型相比,其对违约识别的AUC更高,取得了较好的模型
效果。
参考文献:
[
1
]
AslamU,AzizHIT,SohailAandBatchaNK2019Anem-
piricalstudyonloandefaultpredictionmodelsJournalof
ComputationalandTheoreticalNanoscience16pp3483-8.
[
2
]
李玉占.基于SMOTE-随机森林的互联网金融公司财务
风险预警模型
[
J
]
.经济研究导刊,2020
(
33
)
:79-80.
[
3
]
HANH,WANGWY,-line-SMOTE:anew
over-samplingmethodinimbalanceddatasetslearning[C]//
Proceedingsofthe2005InternationalConferenceonIntelligent
Computing,:Springer,2005:878-887.
[
4
]
王乐,韩萌,李晓娟,等.不平衡数据集分类方法综述.计算机
工程与应用,2021,57
(
22
)
:42-52.
[
5
]
CHENTQ,t:Ascalabletreeboos-
tingsystem
[
C
]
.22ndACMSIGKDDInternationalConfer-
enceonKnowledgeDiscoveryandDataMining,SanFran-
cisco,USA:AssociationforComputingMachinery.
[
6
]
张晟.基于集成学习的P2P网贷违约客户识别实证研究
[
D
]
.安徽财经大学,2020.
[
7
]
沙一诺.基于数据挖掘的企业债券违约风险预测
[
D
]
:
[
硕
士学位论文
]
.上海:上海师范学,2021.
[
8
]
容钰添.基于XGBoost集成方法的推荐算法研究
[
D
]
,2016.
[
9
]
肖宇,赵建有,叱干都,刘清云.基于XGBoost的短时出租车
速度预测模型
[
J
]
.交通信息与安全,2022,40
(
03
)
:163-170.
[
10
]
KeG,MengQ,FinleyT,bm:Ahighlyefficient
gradientboostingdecisiontree
[
C
]
//AdvancesinNeuralIn-
formationProcessingSystems.2017:3146-3154.
[
11
]
颜诗旋,朱平,刘钊.基于改进LightGBM模型的汽车故
障预测方法研究
[
J
]
.汽车工程,2020,42
(
6
)
:815-819,825.
[
12
]
Tsung-YiLin,PriyaGoyal,RossGirshick,KaimingHe,Piotr
Dollar;ProceedingsoftheIEEEInternationalConferenceon
ComputerVision
(
ICCV
)
,2017,pp.2980-2988.
[
13
]
刘佳星.基于网格搜索超参数优化的支持向量回归
[
J
]
.科学
技术创新,2022
(
13
)
:71-74.
67
Copyright©博看网. All Rights Reserved.
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712936113a2151295.html
评论列表(0条)