2024年4月13日发(作者:)
JournalofComputerApplications
计算机应用,
2021,41(4):1035-1041
文章编号:1001-9081(2021)04-1035-07
ISSN1001⁃9081
CODENJYIIDU
2021⁃04⁃10
http:
//
DOI:10.11772/.1001-9081.2020081589
基于LightGBM算法的能见度预测模型
22*
余东昌
1,
,赵文芳
1,
,聂凯
3
,张舸
4
3.北京市气象探测中心,北京100176;4.信图智行(北京)科技有限公司,北京100022)
(∗通信作者电子邮箱yoyozwf@)
(1.北京城市气象研究院,北京100089;2.北京市气象信息中心,北京100089;
LightGBM的能见度预测模型。首先,以数值模式系统的气象预报数据为基础,结合地面气象观测数据、PM
2.5
浓度观
测数据,利用随机森林算法构建特征向量;其次,针对不同时间跨度的缺失数据,设计了3种缺失值处理方法对缺失
值进行替代,生成用于训练和测试的连续性较好的数据样本集;最后,建立基于LightGBM的能见度预测模型,并用网
络搜索法对其进行参数优化。把所提模型与支持向量机(SVM)、多元线性回归(MLR)、人工神经网络(ANN)在性能
上进行对比。实验结果表明,对于不同的等级的能见度,应用LightGBM的能见度预测模型获得预兆得分(TS)均较
高,而对于<2km的低能见度,该模型对各观测站点的能见度预测值与各观测站点的能见度实况值的平均相关系数为
0.75,平均均方误差为6.49。可见基于LightGBM的预测模型能有效提高能见度预测精度。
关键词:能见度预测;集成学习;随机森林算法;LightGBM算法
中图分类号:TP181文献标志码:A
摘要:为了提高能见度预报的准确率,尤其是低能见度预报的准确率,提出一种基于集成学习随机森林和
VisibilityforecastmodelbasedonLightGBMalgorithm
22*
YUDongchang
1,
,ZHAOWenfang
1,
,NIEKai
3
,ZHANGGe
4
gMeteorologicalInformationCenter,Beijing100089,China;
hiXing(Beijing)TechnologyCorporationLimited,Beijing100022,China)
gMeteorologicalObservationCenter,Beijing100176,China;
(gInstituteofUrbanMeteorology,Beijing100089,China;
ensemblelearningmodey,basedonthe
concentrationobservationdata,ly,forthemissing
thy,avisibilityforecastmodelbasedon
mentalresultsshowthatfordifferentlevelsofvisibility,theproposedvisibilityforecastmodelbasedon
coefficientbetweenthevisibilityvaluesofobservationstationspredictedbythemodelandtheobservationvaluesofvisibility
basedonLightGBMcaneffectivelyimprovetheaccuracyofvisibilityforecast.
Keywords:visibilityforecast;ensemblelearning;randomforestalgorithm;LightGBMalgorithm
LightGBMwasestablished,posedmodelwas
LightGBMalgorithmobtainsthehighestThreatScore(TS);whenthevisibilityislessthan2km,theaveragecorrelation
ofobservationstationsis0.75,eseenthattheforecastmodel
Abstract:Inordertoimprovetheaccuracyofvisibilityforecast,especiallytheaccuracyoflow-visibilityforecast,an
meteorologicalforecastdataofthenumericalmodelingsystem,combinedwithmeteorologicalobservationdataandPM
2.5
datawithdifferenttimespans,threemissingvalueprocessingmethodsweredesignedtoreplacethemissingvalues,andthen
comparedtoSupportVectorMachine(SVM),MultipleLinearRegression(MLR)andArtificialNeuralNetwork(ANN)on
0
大气能见度是反映大气透明度的一个指标,具体定义为
引言
高低与人们日常生活息息相关,低能见度容易引发交通事故,
带来严重的危害和经济损失。例如,长时间的低能见度天气
不仅会造成大范围的航班延误和取消,对航空公司带来巨大
损失,还会对公众出行造成影响。近年来,京津冀地区雾霾事
件频发,低能见度已经成为衡量雾霾污染程度最重要的指标
之一
[1-2]
,能见度的相关研究受到大气、环境领域乃至社会的
广泛关注,而能见度的预报也成为霾天气预报以及相关环境
视力正常的人能从背景(天空或地面)中识别出具有一定大小
的目标物的最大距离。影响能见度的因子主要有大气透明
度、气溶胶的化学成分、气象因子等,当出现降雨、雾、霾、沙尘
暴等天气过程时,大气透明度较低,因此能见度较差。能见度
收稿日期:2020⁃10⁃13;修回日期:2020⁃11⁃01;录用日期:2021⁃01⁃05。
作者简介:余东昌(1978—),男,福建古田人,高级工程师,主要研究方向:并行计算、大数据分析、人工智能;赵文芳(1980—),女,湖北鄂
州人,研究员,硕士,主要研究方向:气象数据分析处理、机器学习、人工智能;聂凯(1983—),男,山西阳泉人,高级工程师,主要研究方向:气象
智能观测、大数据分析;张舸(1991—),男,北京人,高级工程师,硕士,主要研究方向:遥感数据分析、软件架构。
1036
气象预报服务的重要基础之一。
计算机应用
第41卷
目前,能见度的预报方法主要包括数值模式预报和统计
预报。数值模式预报主要基于空气动力学理论和物理化学过
程,使用各类气象数据和排放源数据,建立环境气象数值模式
系统来模拟大气中的污染物、湿度、液态水含量等要素,依据
大气光学理论,计算其对大气消光的贡献,诊断预报大气能见
度
[3-5]
。广泛应用的模式包括美国环保署开发的通用多尺度
空气质量模型(CommunityMulti-scaleAirQualitymodel,
CMAQ),美国国家大气研究中心、美国国家海洋和大气管理
局等多家联合研发的气象−化学在线完全耦合的区域空气质
量模式(WeatherResearchandForecasting(WRF)model
[6]
coupledwithChemistry,WRF-Chem)
,中国气象科学研究院
已有文献将集成学习应用在PM
2.5
预测
[18-20]
、温度预报订
正
[21]
、O
3
浓度预测
[22]
和估算
[23]
中并达到了更加准确的预报效
果,尚没有研究将集成学习应用至能见度预报中。因此,本文
预报误差。
选择boosting集成学习方法建立能见度预测模型,有利于降低
1.1
1能见度特征分析
本文利用1980—2020年北京地区国家级地面气象台站
能见度逐年变化趋势
观测的大气水平能见度数据对北京地区大气能见度的逐年变
化趋势进行分析,这些数据均经过“台站级—省级—国家级”
三级质控。先计算每个站逐年能见度均值,再统计所有站的
年平均能见度,结果如图1所示。可以看出,1980—2020年北
京地区年均能见度整体呈下降趋势:1980—2006年能见度呈
波动式的变化,整体上呈现缓慢下降趋势;2007—2013年能
见度呈上升趋势;2014年能见度最低,城区的能见度均值比
北京地区年均值低25.14%;2015—2019年能见度又呈现上
升趋势,这从侧面反映了近几年空气污染治理取得了良好效
果。余予等
[24]
分析北京地区能见度变化后指出,海淀和石景
山站点观测的能见度整体呈下降趋势,这与本文的研究结果
较为接近。
研发的城市空气污染数值预报系统(CityAirPollution
[8]
(CMAUnifiedAtmosphericChemistryEnvironment)等。部分
[7]
PredictionSystem,CAPPS)
和雾霾数值预报模式CAUCE
省级气象部门也通过引进国外WRF-Chem化学模式进行本地
化改来提升区域环境业务水平,例如,华北区域气象中心北基
于北京地区快速更新循环同化预报系统、WRF-Chem模式和
优选的能见度参数化方案,建立了华北区域环境气象数值预
报系统(BeijingRegionalEnvironmentalMeteorologyPrediction
[9]
System,RMAPS-CHEM)
。已有研究表明,这些模式的预报
能力随能见度降低均逐渐下降,存在对于低能见度模拟偏高
的问题,在能见度预报业务中需要预报员进行订正
[10-11]
。
传统的统计预报法是通过寻找气象要素对能见度的影响
关系,构建预报量与预报因子之间的预报模型来实现。这种
建模都是事先给定模式的因变量与自变量之间的函数关系,
不能较好地描述因变量与自变量之间的联系,也无法预报历
史数据中未出现过的天气,存在一定局限性。近年来,随着机
器学习的发展,不少学者开始用机器学习算法进行能见度预
报的研究,通过选取污染物浓度、温度、湿度、气压、风速、水汽
压等影响因子,使用多元线性回归、支持向量机、神经网络等
对能见度进行预测
[12-17]
。然而,除了气象条件,能见度还受到
排放量、气溶胶化成分等因素的共同影响,应用单一模型和有
限的气象因子建立模型,对预测精度产生了一定影响。
集成学习是目前机器学习领域最热门的研究方向之一,
它的基本思想是把多个学习器通过一定方法进行组合,通过
优势互补以获得比单一模型更好的拟合表现和更小的误差,
从而达到最终效果的提升。目前主流的集成机器学习方法
有:Boosting、Bagging和Stacking。近年来许多机器学习竞赛
的冠军均使用了集成学习,一些主流的互联网公司,例如腾
讯、阿里巴巴都已经将集成学习用在推荐、搜索排序、用户行
为预测、点击率预测、产品分类等业务中,并取得了良好效果。
1.2
Fig.1
图1
AnnualchangetrendofvisibilityinBeijingarea
北京地区能见度逐年变化趋势
2~5km、5~10km和10km以上,分析1980—2020年北京地区
各个季节(春季3~5月、夏季6~8月、秋季9~11月、冬季12月
至来年2月)不同等级能见度出现的天数和所占百分比,低能
见度<2km在不同季节出现天数的结果如图2所示。从图2中
可以看出,冬季出现能见度<2km的天数最多,秋季次之,春季
和夏季较少;1980—1999年期间逐年能见度<2km出现的天
数不超过15d,2000—2012年期能见度<2km出现的天数最
参考雾霾等级标准划将能见度分为四个级别:0~2km、
低能见度的季节变化特征
少,2013—2016年秋冬季节能见度<2km出现的天数明显增
多,2017—2019年能见度<2km出现的天数明显下降,不超过
Fig.2Seasonalchangetrendoflow-visibilityinBeijingareafrom1980to2019
图2北京地区1980—2019年低能见度季节性的变化趋势
第4期余东昌等:基于LightGBM算法的能见度预测模型
1.4气象要素与大气污染对能见度的影响
1037
10d能见度在2~5km出现的天数随时间的变化特征如下:
1980—1999年呈波浪形变化,变化幅度不大;2000—2012年
到80d;2017年之后下降至30d左右。能见度在2~5km出现
的天数比较平均的分布在夏、秋、冬三个季节,春季最少。
1.3
对所有气象站的能见度观测数据按春、夏、秋、冬季分类,
不同季节能见度日内逐小时变化
呈现明显递减趋势;2013—2016年又呈现上升趋势,最高达
有影响,因此进行能见度与常规气象要素及大气成分观测数
据的相关性分析,考虑到北京地区最早开始PM
2.5
观测是在
PM
2.5
浓度数据来自于PM
2.5
监测仪。该监测仪利用β射线作
除了气象要素,以PM
2.5
为代表的颗粒物浓度对能见度也
2002年,因此选择使用2002—2019年北京地区能见度、气象
要素及大气成分观测数据进行该项数据分析工作。其中,
为辐射源,采用恒定流量抽气,将PM
2.5
颗粒吸附在β源和探
测器之间的滤纸表面,然后根据抽气前后探测器对β射线计
数值的改变换算单位体积空气中PM
2.5
的浓度。
计算各季节0点到23点逐小时能见度平均值,结果如图3
所示。
将能见度划分四个等级,计算每个等级下能见度和不同
气象要素的平均值,结果如表1所示。当能见度<2km时,平
均相对湿度78%,平均PM
2.5
浓度达到了119μg/m
3
;当能见度>
10km时,平均相对湿度仅有43%,平均PM
2.5
浓度为
要素的变化并不显著,相反PM
2.5
浓度变化最大,相对湿度变
化次之。
Fig.3
图3
Hour-by-hourchangetrendinonedayofvisibilityin
Beijingareindifferentseasons
北京地区不同季节能见度日内逐小时变化趋势
28.7μg/m
3
;随着能见度从好变差,气压、温度、风这三个气象
对能见度的相关性按春夏秋冬四季和年两个尺度进行分
析,结果如表2所示。从中可看出,与能见度相关性较高的要
素主要为PM
2.5
浓度、相对湿度、风向及风速,其中相对湿度、
PM
2.5
浓度与能见度呈负相关关系,风速、风向与能见度呈正
相关关系,这与以往研究结果一致
[25]
。相对湿度在春季与能
见度相关性最高,而冬季最低;风速与能见度的相关性在春季
表现最弱,夏季最强;风向与能见度相关性在冬季最强,春季
最低;SO
2
浓度是北京地区供暖期间最主要的大气污染物之
一,在冬季和夏季与能见度相关性较高;PM
2.5
浓度与能见度
京地区能见度的影响存在明显的季节性差异。
5时至7时,随着气温的升高,相对湿度减小,热力对流趋于旺
盛,能见度逐渐转好,平均能见度最高值出现在下午15时至
16时,到了傍晚随着热力对流条件减弱,相对湿度增加,能见
度又持续变差。冬季,一日中能见度从凌晨开始呈现上升再
下降趋势,最低值出现在上午8时,随后又呈现上升趋势,下
午15时至16时到达最大,到了傍晚能见度随时间推移缓慢
下降。
Tab.1
能见度范围/km
<2.0
[2.0,5.0)
[5.0,10.0]
>10.0
能见度/km
1.2
3.4
7.3
26.2
表1
可以看出,春夏秋三季,一日中能见度最低值出现在上午
在四季都保持着较高的相关性;由此可见,不同气象要素对北
Annualmeanvaluesofvisibilityandmeteorologicalfactorsfrom2009to2019
气压/hPa
997.1
996.6
996.6
995.8
气温/℃
9.1
13.8
14.6
11.9
风速(/m·s
-1
)
1.8
2.0
2.2
2.5
相对湿度/%
78
68
58
43
2009—2019年能见度及气象要素的年平均值
PM
2.5
浓度(/μg·m
-3
)
119.0
86.3
64.5
28.7
Tab.2
季节
春季
夏季
秋季
冬季
年平均
Correlationcoefficientsbetweenseasonal/annualaveragevisibilitywithmeteorologicalfactorsfrom2009to2019
气温/℃
0.34
0.17
0.45
-0.39
0.11
风速(/m·s
-1
)
0.14
0.73
0.43
0.36
0.54
风向/deg
0.28
0.71
0.27
0.87
0.56
SO
2
浓度(/μg·m
3
)
-0.39
-0.71
0.29
-0.44
-0.41
相对湿度/%
-0.66
-0.45
-0.57
-0.35
-0.48
表22009—2019年北京地区季、年平均能见度与各类要素间的相关系数
PM
2.5
浓度(/μg·m
-3
)
-0.59
-0.75
-0.55
-0.63
-0.56
2
本文采用随机森林方法选择特征向量,使用LightGBM建
本文方法和模型
是一种基于迭代所构造的决策树算法,既可以做回归也可以
做分类,它以分类回归树(ClassificationAndRegressionTrees,
CART)模型作为弱学习器,将新学习器建立在之前学习器损
失函数梯度下降的方向,通过不断迭代来训练模型。迭代过
程中,每一轮预测值和实际值有残差,下一轮根据残差再进行
预测,最后将所有预测相加作为最终结论。因此,GBDT可以
表示为决策树的加法模型,如式(1)所示:
f
m
(x)=
立能见度预测模型的方法。使用基于北京市空气质量历史数
据集、气象和天气预报数据集构建的训练数据集开展模型训
练。以过去24h的气象数据、能见度数据、PM
2.5
浓度测数据、
当前时刻的气象要素实况数据和气象要素物理量数据等作为
模型的输入,通过优化参数得到最佳模型并进行预测。
2.1
梯度提决策升树(GradientBoostingDecisionTree,GBDT)
梯度提升决策树算法及LightGBM原理
T(x;θ
m
)
表示决策树;
θ
m
为决策树参数;其中:M为树的个数。
∑
T(x;θ
M
m=1
m
)
(1)
1038
计算机应用
第41卷
根据向前分步算法,
设定
y
(x)
第
+
m
T(
步的模型可以表示为式
x;θ
(2):
f
m
(x)=f
m-1
m
)
i
为第
i
个样本的真实值,
f
(2)
m
值,取损失函数为平方损失,
(x
i
)
为第
i
个样本的预测
L(y
i
,f
m
(x
i
))=
1
那么损失函数可以表示为式(3):
(y
i
-f
m
(x
i
))
2
(3)
根据式(4)极小化损失函数得到参数
2
θ
m
:
θ
m
=argmin
∑
M
L(y
i=1
i
;f
m-1
(x)+T(x;θ
m
))
(4)
通过多次迭代,
LightGBM是微软基于
更新回归树可以得到最终模型。
基于直方图的分割算法取代了传统的预排序遍历算法,
GBDT框架提出的改进模型,
不仅
使用
在训练速度和空间效率上均优于GBDT,还能有效防止过拟
合,
2.2
更加适用于训练海量高维数据。
本文实验数据来源于北京地区
数据来源及预处理
2015—2018年逐小时的
气象观测数据、空气质量观测数据以及气象要素格点预报数
据。气象观测数据和空气质量观测数据来自于北京市气象局
国家级地面观测站,包括逐小时气压、气温、相对湿度、降水
量、风向、风速、PM
2.5
浓度、SO
2
浓度;气象要素格点预报数据
来源于北京市气象局数值模式系统,主要包括不同高度层
1000,975,925,850,700,500hPa)的温度预报、相对湿度预
报、风速风向预报等。气象要素格点预报数据完整性较好,观
测数据大约有5.7%的缺失。
对于缺失的观测数据,进行缺失时长统计。缺失时长是
指以小时为单位,将从最近一次观测到有效值,到当前时刻所
经过的时间跨度。所有缺失数据里,87.6%数据缺失时长时
长为不超过2h,10.4%数据缺失时长为3~12h,1.72%数据缺
失时长为12~2h,0.28%数据缺失时长为24h以上。考虑到
不同季节中的小时平均能见度浓度变化存在较大差异,本文
根据缺失时长设计了三种不同的缺失值处理方法。对于缺失
时长≤2h的,用上一时次和下一时次观测数据的平均值替代;
对于2h<缺失时长≤12h的,用最近的有效数据替代缺失值;
对于12h<缺失时长≤24h的,用过去24h的平均值替代;缺失
时长超过24h的,用相同时间段的所有站的能见度均值和最
近有效值作加权和替代缺失值。最近有效值和均值的结合,
既考虑了长期稳定值又考虑了能见度突变状况,比单一用均
值替代更接近能见度实际变化情况。
2.3
数值模式系统中输出的气象要素格点预报多达几十种,
特征向量选择
若所有格点预报全部输入能见度预测模型进行训练,会使模
型结构过于复杂,并产生过拟合现象,甚至导致模型泛化能力
不足,因此,需要进行筛选。
随机森林是一种分类和回归技术,实现简单,计算开销
小,不仅适用于非线性数据建模,还适用于对变量进行重要性
分析,已有很多学者将随机森林方法用于特征选择,在卫星遥
感数据反演、空气质量预测、林地动态预测、生态学预测等应
用中取得了良好效果。本文采用随机森林法,从观测数据和
气象要素格点预报数据中,选取对北京地区能见度有重要影
响的观测要素或预报要素作为特征向量。图4显示了不同气
象要素及其重要性系数分布情况,排在前5的分别是PM
2.5
浓
度、相对湿度、海平面气压、850hPa和500hPa两个高度层的
温度预报,按照重要性系数从高到低选取12个气象要素作为
能见度预测模型的特征向量。
Fig.4Importance
图4不同特征向量的重要性系数
2.4
coefficientofdifferentfeaturevectors
能见度预报是一个典型的时序预测问题,
逐小时能见度预测模型
不仅相邻时刻
之间的能见度数值具有较强的相关性,而且各气象要素前几
个时刻的变化速率和幅度也对当前时刻的能见度有重要影
响,
24
报数据作为模型的输入量,
h
因此,
能见度、
选择当前小时气象观测数据和
过去24h的观测数据、
将下1h
当前小时气象要素格点预
PM
2.5
浓度数据、过去
能见度预测数据作为模型
的输出量,进行模型训练。
对于观测数据,根据缺失时长选择不同的处理方法进行
缺失值替换;对于预报数据,根据观测站点的经纬度信息,通
过双线性插值法将气象要素格点预报数据插值到观测站点,
即可得到观测站点的气象要素预报数据,从而生成关于观测
站点的逐小时原始数据集,然后使用随机森林算法进行特征
提取形成特征向量集合。根据模型对输入量要求,对向量集
合进行转换,形成每个站点都包含当前小时和过去24h特征
量的样本集合。基于样本集合应用LightGBM建立预测模型,
利用网络搜索法优化模型参数,对未来1h能见度进行预报。
3.
3
1
实验与结果分析
数据预处理后获得
实验环境及数据
114104个逐小时的连续样本,时间跨
度为2015年12月—2018年12月,每个样本包含41个特征向
量。训练集的时间跨度为
12
2016年1月—
现象发生频繁,
月京津冀地区经历了多次重雾霾污染过程,
2018年12月;2015年
因此选择测试集的时间为2015年
低能见度天气
12月。
使用python和机器学习库scikit-learn完成数据的预处理
和基于LightGBM的能见度预测模型建立。为了进一步将该
模
Linear
型与其他模型相
MLR
比
)
,
、
还
结合粒子群优化算法的支持向量机
实现了多元线性回归(Multiple
Support
Regression
VectorMachine
,
Neural
,SVM)、人工神经网络(Artificial
算法进行训练。
Network,ANN)的建模,其中ANN模型使用反向传播
3.2
为了评估模型的性能,
模型评估方法
将能见度按四个等级分别使用均
方根误差(RootMeanSquareError,RMSE)、平均绝对误差
R
MeanAbsoluteError,MAE)
标。
)、预兆得分
RMSE和
(
MAE
Threat
用于评估绝对误差,
Score,TS
、
)
相
、漏报率和空报率作为评价指
关系数(Relativecoefficient,
可以反映预测的极值
效应和误差范围值,TS评分是气象预报业务上常用的检验指
标,用来全面评估预报准确性。
(
(
(
第4期余东昌等:基于LightGBM算法的能见度预测模型
1039
TS评分公式为:
NA
TS=
(5)
NA+NB+NC
其中:NA为预报正确的站(次)数;NB为空报站(次)数;NC为
漏报站(次)数。当预报等级与实况等级相同,则判定为预报
正确;预报在某等级内而实况未出现在该等级内,则为空报;
预报不在某等级内,而实况出现在该等级内,则为漏报。
3.3
对于基于LightGBM的能见度预测模型,本文采用Scikit-
模型参数调优
预报均比较好,TS差别较小。LightGBM在不同等级能见度上
的TS分别为0.89、0.51、0.41、0.58,低能见度预报效果
最好。
learn提供的GridSearch(格网搜索)法进行4个主要参数调优:
学习率、迭代次数、叶节点数以及树的深度。在训练数据集
上,进行多次迭代,采用5折交叉验证的方法来确定训练阶段
的最佳参数来用于预测。该模型参数最终确定为:学习率
learning_rate=0.1,迭代次数n_estimators=100,叶节点
num_leaves=64,树的深度max_depth=8。
对于实验中其他模型,例如多元线性回归、支持向量机、
神经网络等,则根据不同模型的算法特性和调数参经验进行
参数的初始值设置,再采用GridSearch进行参数优化。SVM
构建模型时,核函数选“rbf”,初始化参数C为100,gamma参
数为10,经过粒子群优化后最终参数确定为,kernel='rbf',C=
23.2504,gamma=14.2980。ANN模型设置隐含层为3层,每
层10个神经元,激活函数选“tanh”,学习率learning_rate=
fit_intercept=True,normalize=False,copy_X=True,n_jobs=None。
3.3.1能见度分级检验
3.3.2
Fig.5
图5
TSscoresofdifferentmodels
几个模型的TS得分
北京城区人口密集,是人们生活、生产、交通相对集中的
几种模型预报效果比较
地区,也是低能见度的高发地;郊区人口密度相对稀疏,地势
开阔,因而发生低能见度的概率较少。因此,根据站点周边环
境以及气候北京,从城区选择3个代表性的观测站点,郊区选
择1个代表性的站点进行误差和预测结果的分析。对这4个
站点2015年12月24日—31日逐小时(共192个时次)能见度
进行预测,并分析平均绝对误差(MeanAbsoluteError,MAE)、
均方根误差(RootMeanSquaredError,RMSE)、R等模型评价
指标。几个模型的总体误差及在各站点的误差如表3所示。
四个模型中,LightGBM的RMSE最小,R相关系数最高,RMSE
的值越小,说明预测模型具有更好的精确度,站点3在海拔较
高的地区,偏北风发生概率较高而且风速大,因此低能见度发
生概率偏小,而LightGBM对低能见度预报TS评分比高能见
度要高,因此对站点3的预报误差比其他三个站点误差略高;
ANN模型在四个站点上的预测效果差异不大,总体情况与
MLR模型类似,不过MLR模型在站点1和站点3上的MAE偏
差最大,说明MLR模型对能见度峰值的预测与实况偏差较
大;SVM模型的预测效果是四个模型中最差的,相关系数低于
其他几个模型。
0.05,批量样本batch_size=64。MLR模型参数设置为:
在能见度预报业务中,经常使用分级检验方法来评估不
同数值模式预报系统的预报效果,预报员尤其关注低能见度
的预报准确率,数值模式研究人员也尝试多种方法来提高低
能见度的预报准确率。因此,本文也对能见度进行分级检验,
按照4个等级,分别计算各模型在不同等级上的TS得分,其
结果如图5所示。由图5可见,对于<2km的能见度,
LightGBMTS最高,预报效果最好,可达0.89,而SVM模型TS
最低,为0.65,ANN和MLR模型TS比LightGBM略低;对于
2~5km能见度,LightGBM和MLR模型表现相不差上下;对于
5~10km能见度,ANN模型能见度的预报效果最好,LightGBM
Tab.3
R
表3
和MLR模型的TS均略低;对于当能见度≥10km时,各模型的
站点
1
2
3
4
总体
18.79
18.48
42.19
18.04
19.88
MAE
LightGBM
RMSE
4.33
2.91
6.49
4.24
4.26
Errorcomparisonofdifferentmodelsoverdifferentstations
ANN
RMSE
5.24
3.47
6.47
4.36
4.67
RMAE
MLR
RMSE
5.98
4.56
7.26
4.40
5.76
RMAE
各模型在不同站点的误差比较
0.82
0.83
0.73
0.81
0.92
27.46
12.08
41.91
19.04
25.12
MAE
SVM
0.74
0.76
0.73
0.81
0.89
35.79
20.80
52.75
19.38
41.13
0.62
0.59
0.66
0.80
0.85
19.46
25.31
15.31
31.14
23.17
RMSE
4.41
5.47
8.49
5.58
6.17
0.78
0.52
0.49
0.62
0.82
R
四个站点中,所有模型均在站点2上有最佳预测效果,因
此给出四种模型对该站的逐小时能见度预测曲线随时间的变
化趋势,如图6所示,其中obs_value是能见度观测值。可以看
出,对于192个时次的能见度预报,各模型的表现差异比较明
显。LightGBM的预测曲线与观测曲线最为接近,尤其是在低
能见度时的拟合非常好,表明该模型能较准确地对低能见度
进行预测,随着预报时效的增加,该模型的预测效果并没有明
显下降;ANN模型对低能见度的预测比实况偏高,对能见度>
10km的预报比实况明显偏低,而且随着预报时间的推移偏差
逐渐增大;MLR模型对低能见度的预报比实况也偏高,在能
见度>5km时与实况的变化趋势保持一致,对能见度峰值的拟
合较好;SVM模型的预测效果表现最差,预测值明显高于观测
值。相比之下,LightGBM整体预测效果最好。几个模型在其
他站点的预测表现与观象台站相类似。
1040
计算机应用
第41卷
图6不同模型对站点1的预报效果对比
4
本文在分析北京地区不同等级能见度浓度随季节变化规
结语
Fig.6Comparisonofforecastresultsofdifferentmodelsoverstation1
接入更多的站点数据,进一步提高模型的效率和精度。
参考文献(References)
陈丽,翟崇治,蒋佳凌,等.大气能见度的重要影响因子分析[J].
律、逐日变化趋势的基础上,利用随机森林方法对气象要素、
大气污染物浓度和能见度进行分析,选择了关联度最大的12
个指标作为预测能见度的主要因素,并提出了一种使用集成
学习LightGBM预测能见度的方法。此外,针对数据缺测情
况,设计了三种不同处理方法来替换缺失值,生成了2016—
2018年近三年逐小时的连续样本数据集。通过几个模型预
对低能见度的预测,与实况拟合非常接近。
测结果和误差的对比表明,LightGBM预测效果良好,尤其是
PM
2.5
浓度与能见度相关性比较大,在本文实验中将它加
[1]
山东化工,2015,44(9):169-171.(CHENL,ZHAICZ,JIANG
JL,portantinfluencefactorsofatmosphericvisibility
[2]
[J].ShandongChemicalIndustry,2015,44(9):169-171.)
侯梦玲,王宏,赵天良,等.京津冀一次重度雾霾天气能见度及边
studyofthevisibilityandPBLkeymeteorologicalelementsduringa
heavyfog-hazeepisodeinBeijing-Tianjin-HebeiofChina[J].
1190.)
界层关键气象要素的模拟研究[J].大气科学,2017,41(6):
1177-1190.(HOUML,WANGH,ZHAOTL,ing
ChineseJournalofAtmosphericSciences,2017,41(6):1177-
[3]赵秀娟,李梓铭,徐敬.霾天能见度参数化方案改进及预报效果
M,cationandperformancetestsofvisibility
入特征向量,取得了较好的预测效果。但是北京地区同时进
行大气污染物和气象要素观测的站点不多,在后续的研究中,
需要考虑使用PM
2.5
实况格点数据对站点进行插值,在模型中
评估[J].环境科学,2019,40(4):1688-1696.(ZHAOXJ,LIZ
第4期余东昌等:基于LightGBM算法的能见度预测模型
1041
parameterizations
CHEN
(4):1688
R,
-
WANG
1696.
for
)
hazedays[J].EnvironmentalScience,2019,
[4]
40
pollution
X,MENGX,icatingair
quality
-
International
health
related
GRELLGA
,
,
2013
index
healthrisks
PECKHAM
,51:
in
168
Shanghai
tothepublic
S
-
E
173.
,China
:anapplication
[J].Environment
oftheair
[5]
“
,SCHMITZR,oupled
[6]
Environment
online”chemistrywithintheWRFmodel[J].Atmospheric
[
朱凯全,张宏伟,
,2005,39(37):6957-6975.
ZHANG
J].农业
ofatmospheric
H
灾
张兰.大气环境多尺度数值模式系统及其应用
W,
害
ZHANG
研究,2014,4(8):38-41,43.(ZHUKQ,
environment
and
-scale
itsapplication
numerical
[
modeling
J].Journal
system
Agricultural
陈静,范引琪,
Catastrophology
李杰.CAPPS
,2014
模式在石家庄市应用的效果检验
,4(8):38-41,43.)
of
[7]
[
Q
J].气象与环境学报,2008,24(2):23-
[8]
Journal
,LIJ.
康志明,
of
Validation
桂海林,
Meteorology
of
花丛,
and
CAPPS
等.
Environment
inShijiazhuang
27.
国家级环境气象业务现状及发展趋势
,2008
,
,
Hebei
(CHEN
24(2):
province
J,FAN
23-27.
[
)
J]
Y
.
[
HUA
J].气象科技进展,
andtheir
C,et
developmental
’
2016
snational
,6(2)
trend[
environmen
:64-69.(
J].Advances
-
KANG
meteorological
ZM,GUI
inMeteorological
services
HL,
[9]
ScienceandTechnology,2016,6(2):64-69.)
(
PM2.
赵秀娟,
5预
徐敬,
报检
张自银,
验[J].应
等
用
.
气
北京区域环境气象数值预报系统及
象学报,2016,27(2):160-172.
environmental
ZHAOXJ,
testofPM2.5concentration
meteorology
XUJ,ZHANG
[
prediction
ZY
system
,etal.
and
Beijing
itsperformance
regional
Science,2016,27(2):160-172.
J].
)
JournalofAppliedMeteorological
[10]王媛媛,
区能见度预报订正
赵玮,邢楠,
[
等
J]
.
.
基于
气象,
RMAPS
2020,
-CHEM
46(3)
模式产品的北京地
Y
:403-411.(WANG
based
Y,ZHAO
onRMAPS
W,XING
-CHEM
N,
model
lity
products
forecast
inBeijing
correction
刘慧,
比检验
饶晓琴,
Monthly
[J].气象与环境学报,
张恒德,
,
等
2020
.环境气象业务数值模式预报效果对
,46(3):403-411.)
[J].
[11]
Meteorological
RAO
2017,33(5):17-24.(LIUH,
analysis
XQ
prediction
of
,ZHANG
models
environmental
HD,
in
meteorology
ative
operational
verification
numerical
and
[12]
Environment
BARTOK
,2017,33(
China
5):17
[
-
J
24.
].
)
JournalofMeteorologyand
2012
safety
,
in
145
a
J
(
coastal
,BOTT
3):485
desert
A,GERA
-506.
region[
M.
J].
Fog
Boundary
prediction
-Layer
for
Meteorology
roadtraffic
,
[13]吴波,
预报研究
胡邦辉,
[J].
王学忠,
热带气象学报,
等.基于近似支持向量机的能见度释用
HUBH,WANGXZ,lity
2017,
forecast
33(1):
based
104-110.
on
(
2017,33(1):104-110.)
J].JournalofTropicalMeteorology
proximal
WUB,
supportvectormachine[,
[14]吴彬贵,
预报研究
张建春,
[J].气象,
李英华,
2017
等
,43
.
(
天津港秋冬季低能见度数值释用
JC,LIYH,ch
7):863-871.(WUBG,ZHANG
forlow-visibilityatTianjin
on
port
numerical
inautumn
interpretative
andwinter
forecast
[J].
[15]朱国梁
MeteorologicalMonthly,2017,43(7):863-871.)
创
prediction
新与
.
应
基于
model
用
MLP
,2018
神经网络的机场能见度预测模型
based
(18
on
):
MLP
1-4.
neural
(ZHU
network
GL.
[
Airport
[J
J].Technology
visibility
].科技
[16]
Innovation
LU
andApplication,2018(18):1-4.)
based
Z,
on
LU
hierarchical
B,ZHANG
sparse
H,et
representation
d
[J]
of
.
visibility
Journalof
forecast
Visual
[17]GUIJO
CommunicationandImageRepresentation,2019,58:160-165.
et
classification
tion
-RUBIOD,
[J].
of
GUTIÉRREZ
Atmospheric
low-visibility
PA,CASANOVA-MATEOC,
[18]
Research
events
,
due
2018
to
,214
fog
:
using
64-73.
ordinal
[
王智,
J].软件,
张志强,
2018
谢晓芹,
,39(10
等
)
.
:
基于提升树的
156-163.(WANG
PM2.
Z
5
,
浓度预测模型
XIEXX,2.5concentrationpredictionmodel
ZHANG
based
ZQ
on
,
[19]
(
boostingtree[J].ComputerEngineering
康俊锋,
10):156
andSoftware,2018,39
预测及对比分析
黄烈星,
-163.)
[
张春艳,
J].中国环境科学,
等.多机器学习模型下逐小时
2020,40(5):1895
PM2.
-1905.
5
(
prediction
KANGJF
and
,HUANG
itscomparative
LX,ZHANG
analysis
CY,
under
multi-machine
PM2.5
1895
learning
-1905.
model
)
[J].ChinaEnvironmentalScience,2020,40(5):
[20]高铭壑,
方法[J].
张莹,
山东大学学报
张蓉蓉,等
(工学版)
.基于预测数据特征的空气质量预测
MH,ZHANGY,ZHANGRR,
,
et
2020
al.
,
Air
50(
quality
2):91-
prediction
99.(GAO
approach
91
Shandong
based
-99.)
University
onintegrating
(Engineering
forecasting
Science
dataset
),2020
[J].
,
Journal
50(2):
of
[21]陈昱文,
集成学习误差订正
黄小猛,李熠,
[J].
等
应用气象学报,
.基于ECMWF
2020
产品的站点气温预报
,31(4):494-503.
(
bias
CHENYW,HUANGXM,LIY,lelearningfor
products
correction
[J].Journal
ofstation
ofApplied
temperature
Meteorological
forecastbased
Science
on
,2020
ECMWF
,31
[22]
(
彭岩,
4):494
冯婷婷,
-503.)
[J].山东大学学报
王洁
(工学版)
.基于集成学习的
,2002,
O3
50(
的质量浓度预测模型
FENG
4):
mass
[23]
University
concentration
TT,WANG
1-7.(PENGY,
李一蜚,
(Engineering
prediction
gratedlearningapproachforO3
Science)
model
,2002
[
,
J]
50
.
(
Journal
4):1-7.
of
)
Shandong
F
浓度估算
秦凯,
,QIN
[
K,
J].
李丁,
LI
中国环境科学,
等.基于梯度提升回归树算法的地面臭氧
D,tion
2020,40(3):997-1007.(LIY
concentration
2020,40(3):
based
997-1007.
onGBRT
)
[J].ChinaEnvironmental
ofground-level
Science
ozone
,
[24]余予,
及突变分析
孟晓艳,
[J]
张欣
.环境科学研究,
.1980—2011年北京城区能见度变化趋势
Y
2013,26(2):129-136.(YU
visibility
,MENG
in
X
the
Y,
urban
ZHANG
area
X.
of
Trends
Beijing
and
city
abruption
during1980
analysis
-2011
on
[J
the
].
[25]姜江,
Research
郭文利,
ofEnvironmental
王春玲.2007
Sciences
—2015
,2013
年北京地区能见度时空变
,26(2):129-136.)
GUO
化特征[J].气象与环境学报,2019,35(1):45-52.(JIANGJ,
visibility
WL
in
,
Beijing
alandspatial
.Journal
characteristics
ofMeteorology
of
andEnvironment,2019
from
,
2007
35(1)
to
:45
2015
-52.
[J
)
]
interests
YUDongchang
includeparallel
,born
computing
in1978,earch
intelligence.
,bigdataanalysis,artificial
research
ZHAOWenfang,bornin1980,M.S.,
machine
NIE
learning
interests
,
include
artificial
meteorological
intelligence.
dataanalysisandprocessing,
includeintelligent
Kai,born
observation
in1983
of
,
weather
senior
,
engineer.
bigdataanalysis.
Hisresearchinterests
interests
ZHANG
include
Ge
remote
,born
sensing
in1991
data
,M.
analysis
S.,senior
,software
engineer.
architecture.
Hisresearch
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712953897a2154788.html
评论列表(0条)