基于LightGBM算法的能见度预测模型

基于LightGBM算法的能见度预测模型


2024年4月13日发(作者:)

JournalofComputerApplications

计算机应用,

2021,41(4):1035-1041

文章编号:1001-9081(2021)04-1035-07

ISSN1001⁃9081

CODENJYIIDU

2021⁃04⁃10

http:

//

DOI:10.11772/.1001-9081.2020081589

基于LightGBM算法的能见度预测模型

22*

余东昌

1,

,赵文芳

1,

,聂凯

3

,张舸

4

3.北京市气象探测中心,北京100176;4.信图智行(北京)科技有限公司,北京100022)

(∗通信作者电子邮箱yoyozwf@)

(1.北京城市气象研究院,北京100089;2.北京市气象信息中心,北京100089;

LightGBM的能见度预测模型。首先,以数值模式系统的气象预报数据为基础,结合地面气象观测数据、PM

2.5

浓度观

测数据,利用随机森林算法构建特征向量;其次,针对不同时间跨度的缺失数据,设计了3种缺失值处理方法对缺失

值进行替代,生成用于训练和测试的连续性较好的数据样本集;最后,建立基于LightGBM的能见度预测模型,并用网

络搜索法对其进行参数优化。把所提模型与支持向量机(SVM)、多元线性回归(MLR)、人工神经网络(ANN)在性能

上进行对比。实验结果表明,对于不同的等级的能见度,应用LightGBM的能见度预测模型获得预兆得分(TS)均较

高,而对于<2km的低能见度,该模型对各观测站点的能见度预测值与各观测站点的能见度实况值的平均相关系数为

0.75,平均均方误差为6.49。可见基于LightGBM的预测模型能有效提高能见度预测精度。

关键词:能见度预测;集成学习;随机森林算法;LightGBM算法

中图分类号:TP181文献标志码:A

摘要:为了提高能见度预报的准确率,尤其是低能见度预报的准确率,提出一种基于集成学习随机森林和

VisibilityforecastmodelbasedonLightGBMalgorithm

22*

YUDongchang

1,

,ZHAOWenfang

1,

,NIEKai

3

,ZHANGGe

4

gMeteorologicalInformationCenter,Beijing100089,China;

hiXing(Beijing)TechnologyCorporationLimited,Beijing100022,China)

gMeteorologicalObservationCenter,Beijing100176,China;

(gInstituteofUrbanMeteorology,Beijing100089,China;

ensemblelearningmodey,basedonthe

concentrationobservationdata,ly,forthemissing

thy,avisibilityforecastmodelbasedon

mentalresultsshowthatfordifferentlevelsofvisibility,theproposedvisibilityforecastmodelbasedon

coefficientbetweenthevisibilityvaluesofobservationstationspredictedbythemodelandtheobservationvaluesofvisibility

basedonLightGBMcaneffectivelyimprovetheaccuracyofvisibilityforecast.

Keywords:visibilityforecast;ensemblelearning;randomforestalgorithm;LightGBMalgorithm

LightGBMwasestablished,posedmodelwas

LightGBMalgorithmobtainsthehighestThreatScore(TS);whenthevisibilityislessthan2km,theaveragecorrelation

ofobservationstationsis0.75,eseenthattheforecastmodel

Abstract:Inordertoimprovetheaccuracyofvisibilityforecast,especiallytheaccuracyoflow-visibilityforecast,an

meteorologicalforecastdataofthenumericalmodelingsystem,combinedwithmeteorologicalobservationdataandPM

2.5

datawithdifferenttimespans,threemissingvalueprocessingmethodsweredesignedtoreplacethemissingvalues,andthen

comparedtoSupportVectorMachine(SVM),MultipleLinearRegression(MLR)andArtificialNeuralNetwork(ANN)on

0

大气能见度是反映大气透明度的一个指标,具体定义为

引言

高低与人们日常生活息息相关,低能见度容易引发交通事故,

带来严重的危害和经济损失。例如,长时间的低能见度天气

不仅会造成大范围的航班延误和取消,对航空公司带来巨大

损失,还会对公众出行造成影响。近年来,京津冀地区雾霾事

件频发,低能见度已经成为衡量雾霾污染程度最重要的指标

之一

[1-2]

,能见度的相关研究受到大气、环境领域乃至社会的

广泛关注,而能见度的预报也成为霾天气预报以及相关环境

视力正常的人能从背景(天空或地面)中识别出具有一定大小

的目标物的最大距离。影响能见度的因子主要有大气透明

度、气溶胶的化学成分、气象因子等,当出现降雨、雾、霾、沙尘

暴等天气过程时,大气透明度较低,因此能见度较差。能见度

收稿日期:2020⁃10⁃13;修回日期:2020⁃11⁃01;录用日期:2021⁃01⁃05。

作者简介:余东昌(1978—),男,福建古田人,高级工程师,主要研究方向:并行计算、大数据分析、人工智能;赵文芳(1980—),女,湖北鄂

州人,研究员,硕士,主要研究方向:气象数据分析处理、机器学习、人工智能;聂凯(1983—),男,山西阳泉人,高级工程师,主要研究方向:气象

智能观测、大数据分析;张舸(1991—),男,北京人,高级工程师,硕士,主要研究方向:遥感数据分析、软件架构。

1036

气象预报服务的重要基础之一。

计算机应用

第41卷

目前,能见度的预报方法主要包括数值模式预报和统计

预报。数值模式预报主要基于空气动力学理论和物理化学过

程,使用各类气象数据和排放源数据,建立环境气象数值模式

系统来模拟大气中的污染物、湿度、液态水含量等要素,依据

大气光学理论,计算其对大气消光的贡献,诊断预报大气能见

[3-5]

。广泛应用的模式包括美国环保署开发的通用多尺度

空气质量模型(CommunityMulti-scaleAirQualitymodel,

CMAQ),美国国家大气研究中心、美国国家海洋和大气管理

局等多家联合研发的气象−化学在线完全耦合的区域空气质

量模式(WeatherResearchandForecasting(WRF)model

[6]

coupledwithChemistry,WRF-Chem)

,中国气象科学研究院

已有文献将集成学习应用在PM

2.5

预测

[18-20]

、温度预报订

[21]

、O

3

浓度预测

[22]

和估算

[23]

中并达到了更加准确的预报效

果,尚没有研究将集成学习应用至能见度预报中。因此,本文

预报误差。

选择boosting集成学习方法建立能见度预测模型,有利于降低

1.1

1能见度特征分析

本文利用1980—2020年北京地区国家级地面气象台站

能见度逐年变化趋势

观测的大气水平能见度数据对北京地区大气能见度的逐年变

化趋势进行分析,这些数据均经过“台站级—省级—国家级”

三级质控。先计算每个站逐年能见度均值,再统计所有站的

年平均能见度,结果如图1所示。可以看出,1980—2020年北

京地区年均能见度整体呈下降趋势:1980—2006年能见度呈

波动式的变化,整体上呈现缓慢下降趋势;2007—2013年能

见度呈上升趋势;2014年能见度最低,城区的能见度均值比

北京地区年均值低25.14%;2015—2019年能见度又呈现上

升趋势,这从侧面反映了近几年空气污染治理取得了良好效

果。余予等

[24]

分析北京地区能见度变化后指出,海淀和石景

山站点观测的能见度整体呈下降趋势,这与本文的研究结果

较为接近。

研发的城市空气污染数值预报系统(CityAirPollution

[8]

(CMAUnifiedAtmosphericChemistryEnvironment)等。部分

[7]

PredictionSystem,CAPPS)

和雾霾数值预报模式CAUCE

省级气象部门也通过引进国外WRF-Chem化学模式进行本地

化改来提升区域环境业务水平,例如,华北区域气象中心北基

于北京地区快速更新循环同化预报系统、WRF-Chem模式和

优选的能见度参数化方案,建立了华北区域环境气象数值预

报系统(BeijingRegionalEnvironmentalMeteorologyPrediction

[9]

System,RMAPS-CHEM)

。已有研究表明,这些模式的预报

能力随能见度降低均逐渐下降,存在对于低能见度模拟偏高

的问题,在能见度预报业务中需要预报员进行订正

[10-11]

传统的统计预报法是通过寻找气象要素对能见度的影响

关系,构建预报量与预报因子之间的预报模型来实现。这种

建模都是事先给定模式的因变量与自变量之间的函数关系,

不能较好地描述因变量与自变量之间的联系,也无法预报历

史数据中未出现过的天气,存在一定局限性。近年来,随着机

器学习的发展,不少学者开始用机器学习算法进行能见度预

报的研究,通过选取污染物浓度、温度、湿度、气压、风速、水汽

压等影响因子,使用多元线性回归、支持向量机、神经网络等

对能见度进行预测

[12-17]

。然而,除了气象条件,能见度还受到

排放量、气溶胶化成分等因素的共同影响,应用单一模型和有

限的气象因子建立模型,对预测精度产生了一定影响。

集成学习是目前机器学习领域最热门的研究方向之一,

它的基本思想是把多个学习器通过一定方法进行组合,通过

优势互补以获得比单一模型更好的拟合表现和更小的误差,

从而达到最终效果的提升。目前主流的集成机器学习方法

有:Boosting、Bagging和Stacking。近年来许多机器学习竞赛

的冠军均使用了集成学习,一些主流的互联网公司,例如腾

讯、阿里巴巴都已经将集成学习用在推荐、搜索排序、用户行

为预测、点击率预测、产品分类等业务中,并取得了良好效果。

1.2

Fig.1

图1

AnnualchangetrendofvisibilityinBeijingarea

北京地区能见度逐年变化趋势

2~5km、5~10km和10km以上,分析1980—2020年北京地区

各个季节(春季3~5月、夏季6~8月、秋季9~11月、冬季12月

至来年2月)不同等级能见度出现的天数和所占百分比,低能

见度<2km在不同季节出现天数的结果如图2所示。从图2中

可以看出,冬季出现能见度<2km的天数最多,秋季次之,春季

和夏季较少;1980—1999年期间逐年能见度<2km出现的天

数不超过15d,2000—2012年期能见度<2km出现的天数最

参考雾霾等级标准划将能见度分为四个级别:0~2km、

低能见度的季节变化特征

少,2013—2016年秋冬季节能见度<2km出现的天数明显增

多,2017—2019年能见度<2km出现的天数明显下降,不超过

Fig.2Seasonalchangetrendoflow-visibilityinBeijingareafrom1980to2019

图2北京地区1980—2019年低能见度季节性的变化趋势

第4期余东昌等:基于LightGBM算法的能见度预测模型

1.4气象要素与大气污染对能见度的影响

1037

10d能见度在2~5km出现的天数随时间的变化特征如下:

1980—1999年呈波浪形变化,变化幅度不大;2000—2012年

到80d;2017年之后下降至30d左右。能见度在2~5km出现

的天数比较平均的分布在夏、秋、冬三个季节,春季最少。

1.3

对所有气象站的能见度观测数据按春、夏、秋、冬季分类,

不同季节能见度日内逐小时变化

呈现明显递减趋势;2013—2016年又呈现上升趋势,最高达

有影响,因此进行能见度与常规气象要素及大气成分观测数

据的相关性分析,考虑到北京地区最早开始PM

2.5

观测是在

PM

2.5

浓度数据来自于PM

2.5

监测仪。该监测仪利用β射线作

除了气象要素,以PM

2.5

为代表的颗粒物浓度对能见度也

2002年,因此选择使用2002—2019年北京地区能见度、气象

要素及大气成分观测数据进行该项数据分析工作。其中,

为辐射源,采用恒定流量抽气,将PM

2.5

颗粒吸附在β源和探

测器之间的滤纸表面,然后根据抽气前后探测器对β射线计

数值的改变换算单位体积空气中PM

2.5

的浓度。

计算各季节0点到23点逐小时能见度平均值,结果如图3

所示。

将能见度划分四个等级,计算每个等级下能见度和不同

气象要素的平均值,结果如表1所示。当能见度<2km时,平

均相对湿度78%,平均PM

2.5

浓度达到了119μg/m

3

;当能见度>

10km时,平均相对湿度仅有43%,平均PM

2.5

浓度为

要素的变化并不显著,相反PM

2.5

浓度变化最大,相对湿度变

化次之。

Fig.3

图3

Hour-by-hourchangetrendinonedayofvisibilityin

Beijingareindifferentseasons

北京地区不同季节能见度日内逐小时变化趋势

28.7μg/m

3

;随着能见度从好变差,气压、温度、风这三个气象

对能见度的相关性按春夏秋冬四季和年两个尺度进行分

析,结果如表2所示。从中可看出,与能见度相关性较高的要

素主要为PM

2.5

浓度、相对湿度、风向及风速,其中相对湿度、

PM

2.5

浓度与能见度呈负相关关系,风速、风向与能见度呈正

相关关系,这与以往研究结果一致

[25]

。相对湿度在春季与能

见度相关性最高,而冬季最低;风速与能见度的相关性在春季

表现最弱,夏季最强;风向与能见度相关性在冬季最强,春季

最低;SO

2

浓度是北京地区供暖期间最主要的大气污染物之

一,在冬季和夏季与能见度相关性较高;PM

2.5

浓度与能见度

京地区能见度的影响存在明显的季节性差异。

5时至7时,随着气温的升高,相对湿度减小,热力对流趋于旺

盛,能见度逐渐转好,平均能见度最高值出现在下午15时至

16时,到了傍晚随着热力对流条件减弱,相对湿度增加,能见

度又持续变差。冬季,一日中能见度从凌晨开始呈现上升再

下降趋势,最低值出现在上午8时,随后又呈现上升趋势,下

午15时至16时到达最大,到了傍晚能见度随时间推移缓慢

下降。

Tab.1

能见度范围/km

<2.0

[2.0,5.0)

[5.0,10.0]

>10.0

能见度/km

1.2

3.4

7.3

26.2

表1

可以看出,春夏秋三季,一日中能见度最低值出现在上午

在四季都保持着较高的相关性;由此可见,不同气象要素对北

Annualmeanvaluesofvisibilityandmeteorologicalfactorsfrom2009to2019

气压/hPa

997.1

996.6

996.6

995.8

气温/℃

9.1

13.8

14.6

11.9

风速(/m·s

-1

1.8

2.0

2.2

2.5

相对湿度/%

78

68

58

43

2009—2019年能见度及气象要素的年平均值

PM

2.5

浓度(/μg·m

-3

119.0

86.3

64.5

28.7

Tab.2

季节

春季

夏季

秋季

冬季

年平均

Correlationcoefficientsbetweenseasonal/annualaveragevisibilitywithmeteorologicalfactorsfrom2009to2019

气温/℃

0.34

0.17

0.45

-0.39

0.11

风速(/m·s

-1

0.14

0.73

0.43

0.36

0.54

风向/deg

0.28

0.71

0.27

0.87

0.56

SO

2

浓度(/μg·m

3

-0.39

-0.71

0.29

-0.44

-0.41

相对湿度/%

-0.66

-0.45

-0.57

-0.35

-0.48

表22009—2019年北京地区季、年平均能见度与各类要素间的相关系数

PM

2.5

浓度(/μg·m

-3

-0.59

-0.75

-0.55

-0.63

-0.56

2

本文采用随机森林方法选择特征向量,使用LightGBM建

本文方法和模型

是一种基于迭代所构造的决策树算法,既可以做回归也可以

做分类,它以分类回归树(ClassificationAndRegressionTrees,

CART)模型作为弱学习器,将新学习器建立在之前学习器损

失函数梯度下降的方向,通过不断迭代来训练模型。迭代过

程中,每一轮预测值和实际值有残差,下一轮根据残差再进行

预测,最后将所有预测相加作为最终结论。因此,GBDT可以

表示为决策树的加法模型,如式(1)所示:

f

m

(x)=

立能见度预测模型的方法。使用基于北京市空气质量历史数

据集、气象和天气预报数据集构建的训练数据集开展模型训

练。以过去24h的气象数据、能见度数据、PM

2.5

浓度测数据、

当前时刻的气象要素实况数据和气象要素物理量数据等作为

模型的输入,通过优化参数得到最佳模型并进行预测。

2.1

梯度提决策升树(GradientBoostingDecisionTree,GBDT)

梯度提升决策树算法及LightGBM原理

T(x;θ

m

)

表示决策树;

θ

m

为决策树参数;其中:M为树的个数。

T(x;θ

M

m=1

m

)

(1)

1038

计算机应用

第41卷

根据向前分步算法,

设定

y

(x)

+

m

T(

步的模型可以表示为式

x;θ

(2):

f

m

(x)=f

m-1

m

)

i

为第

i

个样本的真实值,

f

(2)

m

值,取损失函数为平方损失,

(x

i

)

为第

i

个样本的预测

L(y

i

,f

m

(x

i

))=

1

那么损失函数可以表示为式(3):

(y

i

-f

m

(x

i

))

2

(3)

根据式(4)极小化损失函数得到参数

2

θ

m

θ

m

=argmin

M

L(y

i=1

i

;f

m-1

(x)+T(x;θ

m

))

(4)

通过多次迭代,

LightGBM是微软基于

更新回归树可以得到最终模型。

基于直方图的分割算法取代了传统的预排序遍历算法,

GBDT框架提出的改进模型,

不仅

使用

在训练速度和空间效率上均优于GBDT,还能有效防止过拟

合,

2.2

更加适用于训练海量高维数据。

本文实验数据来源于北京地区

数据来源及预处理

2015—2018年逐小时的

气象观测数据、空气质量观测数据以及气象要素格点预报数

据。气象观测数据和空气质量观测数据来自于北京市气象局

国家级地面观测站,包括逐小时气压、气温、相对湿度、降水

量、风向、风速、PM

2.5

浓度、SO

2

浓度;气象要素格点预报数据

来源于北京市气象局数值模式系统,主要包括不同高度层

1000,975,925,850,700,500hPa)的温度预报、相对湿度预

报、风速风向预报等。气象要素格点预报数据完整性较好,观

测数据大约有5.7%的缺失。

对于缺失的观测数据,进行缺失时长统计。缺失时长是

指以小时为单位,将从最近一次观测到有效值,到当前时刻所

经过的时间跨度。所有缺失数据里,87.6%数据缺失时长时

长为不超过2h,10.4%数据缺失时长为3~12h,1.72%数据缺

失时长为12~2h,0.28%数据缺失时长为24h以上。考虑到

不同季节中的小时平均能见度浓度变化存在较大差异,本文

根据缺失时长设计了三种不同的缺失值处理方法。对于缺失

时长≤2h的,用上一时次和下一时次观测数据的平均值替代;

对于2h<缺失时长≤12h的,用最近的有效数据替代缺失值;

对于12h<缺失时长≤24h的,用过去24h的平均值替代;缺失

时长超过24h的,用相同时间段的所有站的能见度均值和最

近有效值作加权和替代缺失值。最近有效值和均值的结合,

既考虑了长期稳定值又考虑了能见度突变状况,比单一用均

值替代更接近能见度实际变化情况。

2.3

数值模式系统中输出的气象要素格点预报多达几十种,

特征向量选择

若所有格点预报全部输入能见度预测模型进行训练,会使模

型结构过于复杂,并产生过拟合现象,甚至导致模型泛化能力

不足,因此,需要进行筛选。

随机森林是一种分类和回归技术,实现简单,计算开销

小,不仅适用于非线性数据建模,还适用于对变量进行重要性

分析,已有很多学者将随机森林方法用于特征选择,在卫星遥

感数据反演、空气质量预测、林地动态预测、生态学预测等应

用中取得了良好效果。本文采用随机森林法,从观测数据和

气象要素格点预报数据中,选取对北京地区能见度有重要影

响的观测要素或预报要素作为特征向量。图4显示了不同气

象要素及其重要性系数分布情况,排在前5的分别是PM

2.5

度、相对湿度、海平面气压、850hPa和500hPa两个高度层的

温度预报,按照重要性系数从高到低选取12个气象要素作为

能见度预测模型的特征向量。

Fig.4Importance

图4不同特征向量的重要性系数

2.4

coefficientofdifferentfeaturevectors

能见度预报是一个典型的时序预测问题,

逐小时能见度预测模型

不仅相邻时刻

之间的能见度数值具有较强的相关性,而且各气象要素前几

个时刻的变化速率和幅度也对当前时刻的能见度有重要影

响,

24

报数据作为模型的输入量,

h

因此,

能见度、

选择当前小时气象观测数据和

过去24h的观测数据、

将下1h

当前小时气象要素格点预

PM

2.5

浓度数据、过去

能见度预测数据作为模型

的输出量,进行模型训练。

对于观测数据,根据缺失时长选择不同的处理方法进行

缺失值替换;对于预报数据,根据观测站点的经纬度信息,通

过双线性插值法将气象要素格点预报数据插值到观测站点,

即可得到观测站点的气象要素预报数据,从而生成关于观测

站点的逐小时原始数据集,然后使用随机森林算法进行特征

提取形成特征向量集合。根据模型对输入量要求,对向量集

合进行转换,形成每个站点都包含当前小时和过去24h特征

量的样本集合。基于样本集合应用LightGBM建立预测模型,

利用网络搜索法优化模型参数,对未来1h能见度进行预报。

3.

3

1

实验与结果分析

数据预处理后获得

实验环境及数据

114104个逐小时的连续样本,时间跨

度为2015年12月—2018年12月,每个样本包含41个特征向

量。训练集的时间跨度为

12

2016年1月—

现象发生频繁,

月京津冀地区经历了多次重雾霾污染过程,

2018年12月;2015年

因此选择测试集的时间为2015年

低能见度天气

12月。

使用python和机器学习库scikit-learn完成数据的预处理

和基于LightGBM的能见度预测模型建立。为了进一步将该

Linear

型与其他模型相

MLR

结合粒子群优化算法的支持向量机

实现了多元线性回归(Multiple

Support

Regression

VectorMachine

Neural

,SVM)、人工神经网络(Artificial

算法进行训练。

Network,ANN)的建模,其中ANN模型使用反向传播

3.2

为了评估模型的性能,

模型评估方法

将能见度按四个等级分别使用均

方根误差(RootMeanSquareError,RMSE)、平均绝对误差

R

MeanAbsoluteError,MAE)

标。

)、预兆得分

RMSE和

MAE

Threat

用于评估绝对误差,

Score,TS

、漏报率和空报率作为评价指

关系数(Relativecoefficient,

可以反映预测的极值

效应和误差范围值,TS评分是气象预报业务上常用的检验指

标,用来全面评估预报准确性。

第4期余东昌等:基于LightGBM算法的能见度预测模型

1039

TS评分公式为:

NA

TS=

(5)

NA+NB+NC

其中:NA为预报正确的站(次)数;NB为空报站(次)数;NC为

漏报站(次)数。当预报等级与实况等级相同,则判定为预报

正确;预报在某等级内而实况未出现在该等级内,则为空报;

预报不在某等级内,而实况出现在该等级内,则为漏报。

3.3

对于基于LightGBM的能见度预测模型,本文采用Scikit-

模型参数调优

预报均比较好,TS差别较小。LightGBM在不同等级能见度上

的TS分别为0.89、0.51、0.41、0.58,低能见度预报效果

最好。

learn提供的GridSearch(格网搜索)法进行4个主要参数调优:

学习率、迭代次数、叶节点数以及树的深度。在训练数据集

上,进行多次迭代,采用5折交叉验证的方法来确定训练阶段

的最佳参数来用于预测。该模型参数最终确定为:学习率

learning_rate=0.1,迭代次数n_estimators=100,叶节点

num_leaves=64,树的深度max_depth=8。

对于实验中其他模型,例如多元线性回归、支持向量机、

神经网络等,则根据不同模型的算法特性和调数参经验进行

参数的初始值设置,再采用GridSearch进行参数优化。SVM

构建模型时,核函数选“rbf”,初始化参数C为100,gamma参

数为10,经过粒子群优化后最终参数确定为,kernel='rbf',C=

23.2504,gamma=14.2980。ANN模型设置隐含层为3层,每

层10个神经元,激活函数选“tanh”,学习率learning_rate=

fit_intercept=True,normalize=False,copy_X=True,n_jobs=None。

3.3.1能见度分级检验

3.3.2

Fig.5

图5

TSscoresofdifferentmodels

几个模型的TS得分

北京城区人口密集,是人们生活、生产、交通相对集中的

几种模型预报效果比较

地区,也是低能见度的高发地;郊区人口密度相对稀疏,地势

开阔,因而发生低能见度的概率较少。因此,根据站点周边环

境以及气候北京,从城区选择3个代表性的观测站点,郊区选

择1个代表性的站点进行误差和预测结果的分析。对这4个

站点2015年12月24日—31日逐小时(共192个时次)能见度

进行预测,并分析平均绝对误差(MeanAbsoluteError,MAE)、

均方根误差(RootMeanSquaredError,RMSE)、R等模型评价

指标。几个模型的总体误差及在各站点的误差如表3所示。

四个模型中,LightGBM的RMSE最小,R相关系数最高,RMSE

的值越小,说明预测模型具有更好的精确度,站点3在海拔较

高的地区,偏北风发生概率较高而且风速大,因此低能见度发

生概率偏小,而LightGBM对低能见度预报TS评分比高能见

度要高,因此对站点3的预报误差比其他三个站点误差略高;

ANN模型在四个站点上的预测效果差异不大,总体情况与

MLR模型类似,不过MLR模型在站点1和站点3上的MAE偏

差最大,说明MLR模型对能见度峰值的预测与实况偏差较

大;SVM模型的预测效果是四个模型中最差的,相关系数低于

其他几个模型。

0.05,批量样本batch_size=64。MLR模型参数设置为:

在能见度预报业务中,经常使用分级检验方法来评估不

同数值模式预报系统的预报效果,预报员尤其关注低能见度

的预报准确率,数值模式研究人员也尝试多种方法来提高低

能见度的预报准确率。因此,本文也对能见度进行分级检验,

按照4个等级,分别计算各模型在不同等级上的TS得分,其

结果如图5所示。由图5可见,对于<2km的能见度,

LightGBMTS最高,预报效果最好,可达0.89,而SVM模型TS

最低,为0.65,ANN和MLR模型TS比LightGBM略低;对于

2~5km能见度,LightGBM和MLR模型表现相不差上下;对于

5~10km能见度,ANN模型能见度的预报效果最好,LightGBM

Tab.3

R

表3

和MLR模型的TS均略低;对于当能见度≥10km时,各模型的

站点

1

2

3

4

总体

18.79

18.48

42.19

18.04

19.88

MAE

LightGBM

RMSE

4.33

2.91

6.49

4.24

4.26

Errorcomparisonofdifferentmodelsoverdifferentstations

ANN

RMSE

5.24

3.47

6.47

4.36

4.67

RMAE

MLR

RMSE

5.98

4.56

7.26

4.40

5.76

RMAE

各模型在不同站点的误差比较

0.82

0.83

0.73

0.81

0.92

27.46

12.08

41.91

19.04

25.12

MAE

SVM

0.74

0.76

0.73

0.81

0.89

35.79

20.80

52.75

19.38

41.13

0.62

0.59

0.66

0.80

0.85

19.46

25.31

15.31

31.14

23.17

RMSE

4.41

5.47

8.49

5.58

6.17

0.78

0.52

0.49

0.62

0.82

R

四个站点中,所有模型均在站点2上有最佳预测效果,因

此给出四种模型对该站的逐小时能见度预测曲线随时间的变

化趋势,如图6所示,其中obs_value是能见度观测值。可以看

出,对于192个时次的能见度预报,各模型的表现差异比较明

显。LightGBM的预测曲线与观测曲线最为接近,尤其是在低

能见度时的拟合非常好,表明该模型能较准确地对低能见度

进行预测,随着预报时效的增加,该模型的预测效果并没有明

显下降;ANN模型对低能见度的预测比实况偏高,对能见度>

10km的预报比实况明显偏低,而且随着预报时间的推移偏差

逐渐增大;MLR模型对低能见度的预报比实况也偏高,在能

见度>5km时与实况的变化趋势保持一致,对能见度峰值的拟

合较好;SVM模型的预测效果表现最差,预测值明显高于观测

值。相比之下,LightGBM整体预测效果最好。几个模型在其

他站点的预测表现与观象台站相类似。

1040

计算机应用

第41卷

图6不同模型对站点1的预报效果对比

4

本文在分析北京地区不同等级能见度浓度随季节变化规

结语

Fig.6Comparisonofforecastresultsofdifferentmodelsoverstation1

接入更多的站点数据,进一步提高模型的效率和精度。

参考文献(References)

陈丽,翟崇治,蒋佳凌,等.大气能见度的重要影响因子分析[J].

律、逐日变化趋势的基础上,利用随机森林方法对气象要素、

大气污染物浓度和能见度进行分析,选择了关联度最大的12

个指标作为预测能见度的主要因素,并提出了一种使用集成

学习LightGBM预测能见度的方法。此外,针对数据缺测情

况,设计了三种不同处理方法来替换缺失值,生成了2016—

2018年近三年逐小时的连续样本数据集。通过几个模型预

对低能见度的预测,与实况拟合非常接近。

测结果和误差的对比表明,LightGBM预测效果良好,尤其是

PM

2.5

浓度与能见度相关性比较大,在本文实验中将它加

[1]

山东化工,2015,44(9):169-171.(CHENL,ZHAICZ,JIANG

JL,portantinfluencefactorsofatmosphericvisibility

[2]

[J].ShandongChemicalIndustry,2015,44(9):169-171.)

侯梦玲,王宏,赵天良,等.京津冀一次重度雾霾天气能见度及边

studyofthevisibilityandPBLkeymeteorologicalelementsduringa

heavyfog-hazeepisodeinBeijing-Tianjin-HebeiofChina[J].

1190.)

界层关键气象要素的模拟研究[J].大气科学,2017,41(6):

1177-1190.(HOUML,WANGH,ZHAOTL,ing

ChineseJournalofAtmosphericSciences,2017,41(6):1177-

[3]赵秀娟,李梓铭,徐敬.霾天能见度参数化方案改进及预报效果

M,cationandperformancetestsofvisibility

入特征向量,取得了较好的预测效果。但是北京地区同时进

行大气污染物和气象要素观测的站点不多,在后续的研究中,

需要考虑使用PM

2.5

实况格点数据对站点进行插值,在模型中

评估[J].环境科学,2019,40(4):1688-1696.(ZHAOXJ,LIZ

第4期余东昌等:基于LightGBM算法的能见度预测模型

1041

parameterizations

CHEN

(4):1688

R,

-

WANG

1696.

for

hazedays[J].EnvironmentalScience,2019,

[4]

40

pollution

X,MENGX,icatingair

quality

-

International

health

related

GRELLGA

2013

index

healthrisks

PECKHAM

,51:

in

168

Shanghai

tothepublic

S

-

E

173.

,China

:anapplication

[J].Environment

oftheair

[5]

,SCHMITZR,oupled

[6]

Environment

online”chemistrywithintheWRFmodel[J].Atmospheric

朱凯全,张宏伟,

,2005,39(37):6957-6975.

ZHANG

J].农业

ofatmospheric

H

张兰.大气环境多尺度数值模式系统及其应用

W,

ZHANG

研究,2014,4(8):38-41,43.(ZHUKQ,

environment

and

-scale

itsapplication

numerical

modeling

J].Journal

system

Agricultural

陈静,范引琪,

Catastrophology

李杰.CAPPS

,2014

模式在石家庄市应用的效果检验

,4(8):38-41,43.)

of

[7]

Q

J].气象与环境学报,2008,24(2):23-

[8]

Journal

,LIJ.

康志明,

of

Validation

桂海林,

Meteorology

of

花丛,

and

CAPPS

等.

Environment

inShijiazhuang

27.

国家级环境气象业务现状及发展趋势

,2008

Hebei

(CHEN

24(2):

province

J,FAN

23-27.

J]

Y

.

HUA

J].气象科技进展,

andtheir

C,et

developmental

2016

snational

,6(2)

trend[

environmen

:64-69.(

J].Advances

-

KANG

meteorological

ZM,GUI

inMeteorological

services

HL,

[9]

ScienceandTechnology,2016,6(2):64-69.)

PM2.

赵秀娟,

5预

徐敬,

报检

张自银,

验[J].应

.

北京区域环境气象数值预报系统及

象学报,2016,27(2):160-172.

environmental

ZHAOXJ,

testofPM2.5concentration

meteorology

XUJ,ZHANG

prediction

ZY

system

,etal.

and

Beijing

itsperformance

regional

Science,2016,27(2):160-172.

J].

JournalofAppliedMeteorological

[10]王媛媛,

区能见度预报订正

赵玮,邢楠,

J]

.

.

基于

气象,

RMAPS

2020,

-CHEM

46(3)

模式产品的北京地

Y

:403-411.(WANG

based

Y,ZHAO

onRMAPS

W,XING

-CHEM

N,

model

lity

products

forecast

inBeijing

correction

刘慧,

比检验

饶晓琴,

Monthly

[J].气象与环境学报,

张恒德,

2020

.环境气象业务数值模式预报效果对

,46(3):403-411.)

[J].

[11]

Meteorological

RAO

2017,33(5):17-24.(LIUH,

analysis

XQ

prediction

of

,ZHANG

models

environmental

HD,

in

meteorology

ative

operational

verification

numerical

and

[12]

Environment

BARTOK

,2017,33(

China

5):17

-

J

24.

].

JournalofMeteorologyand

2012

safety

in

145

a

J

coastal

,BOTT

3):485

desert

A,GERA

-506.

region[

M.

J].

Fog

Boundary

prediction

-Layer

for

Meteorology

roadtraffic

[13]吴波,

预报研究

胡邦辉,

[J].

王学忠,

热带气象学报,

等.基于近似支持向量机的能见度释用

HUBH,WANGXZ,lity

2017,

forecast

33(1):

based

104-110.

on

2017,33(1):104-110.)

J].JournalofTropicalMeteorology

proximal

WUB,

supportvectormachine[,

[14]吴彬贵,

预报研究

张建春,

[J].气象,

李英华,

2017

,43

.

天津港秋冬季低能见度数值释用

JC,LIYH,ch

7):863-871.(WUBG,ZHANG

forlow-visibilityatTianjin

on

port

numerical

inautumn

interpretative

andwinter

forecast

[J].

[15]朱国梁

MeteorologicalMonthly,2017,43(7):863-871.)

prediction

新与

.

基于

model

MLP

,2018

神经网络的机场能见度预测模型

based

(18

on

):

MLP

1-4.

neural

(ZHU

network

GL.

Airport

[J

J].Technology

visibility

].科技

[16]

Innovation

LU

andApplication,2018(18):1-4.)

based

Z,

on

LU

hierarchical

B,ZHANG

sparse

H,et

representation

d

[J]

of

.

visibility

Journalof

forecast

Visual

[17]GUIJO

CommunicationandImageRepresentation,2019,58:160-165.

et

classification

tion

-RUBIOD,

[J].

of

GUTIÉRREZ

Atmospheric

low-visibility

PA,CASANOVA-MATEOC,

[18]

Research

events

due

2018

to

,214

fog

using

64-73.

ordinal

王智,

J].软件,

张志强,

2018

谢晓芹,

,39(10

.

基于提升树的

156-163.(WANG

PM2.

Z

5

浓度预测模型

XIEXX,2.5concentrationpredictionmodel

ZHANG

based

ZQ

on

[19]

boostingtree[J].ComputerEngineering

康俊锋,

10):156

andSoftware,2018,39

预测及对比分析

黄烈星,

-163.)

张春艳,

J].中国环境科学,

等.多机器学习模型下逐小时

2020,40(5):1895

PM2.

-1905.

5

prediction

KANGJF

and

,HUANG

itscomparative

LX,ZHANG

analysis

CY,

under

multi-machine

PM2.5

1895

learning

-1905.

model

[J].ChinaEnvironmentalScience,2020,40(5):

[20]高铭壑,

方法[J].

张莹,

山东大学学报

张蓉蓉,等

(工学版)

.基于预测数据特征的空气质量预测

MH,ZHANGY,ZHANGRR,

et

2020

al.

Air

50(

quality

2):91-

prediction

99.(GAO

approach

91

Shandong

based

-99.)

University

onintegrating

(Engineering

forecasting

Science

dataset

),2020

[J].

Journal

50(2):

of

[21]陈昱文,

集成学习误差订正

黄小猛,李熠,

[J].

应用气象学报,

.基于ECMWF

2020

产品的站点气温预报

,31(4):494-503.

bias

CHENYW,HUANGXM,LIY,lelearningfor

products

correction

[J].Journal

ofstation

ofApplied

temperature

Meteorological

forecastbased

Science

on

,2020

ECMWF

,31

[22]

彭岩,

4):494

冯婷婷,

-503.)

[J].山东大学学报

王洁

(工学版)

.基于集成学习的

,2002,

O3

50(

的质量浓度预测模型

FENG

4):

mass

[23]

University

concentration

TT,WANG

1-7.(PENGY,

李一蜚,

(Engineering

prediction

gratedlearningapproachforO3

Science)

model

,2002

J]

50

.

Journal

4):1-7.

of

Shandong

F

浓度估算

秦凯,

,QIN

K,

J].

李丁,

LI

中国环境科学,

等.基于梯度提升回归树算法的地面臭氧

D,tion

2020,40(3):997-1007.(LIY

concentration

2020,40(3):

based

997-1007.

onGBRT

[J].ChinaEnvironmental

ofground-level

Science

ozone

[24]余予,

及突变分析

孟晓艳,

[J]

张欣

.环境科学研究,

.1980—2011年北京城区能见度变化趋势

Y

2013,26(2):129-136.(YU

visibility

,MENG

in

X

the

Y,

urban

ZHANG

area

X.

of

Trends

Beijing

and

city

abruption

during1980

analysis

-2011

on

[J

the

].

[25]姜江,

Research

郭文利,

ofEnvironmental

王春玲.2007

Sciences

—2015

,2013

年北京地区能见度时空变

,26(2):129-136.)

GUO

化特征[J].气象与环境学报,2019,35(1):45-52.(JIANGJ,

visibility

WL

in

Beijing

alandspatial

.Journal

characteristics

ofMeteorology

of

andEnvironment,2019

from

2007

35(1)

to

:45

2015

-52.

[J

interests

YUDongchang

includeparallel

,born

computing

in1978,earch

intelligence.

,bigdataanalysis,artificial

research

ZHAOWenfang,bornin1980,M.S.,

machine

NIE

learning

interests

include

artificial

meteorological

intelligence.

dataanalysisandprocessing,

includeintelligent

Kai,born

observation

in1983

of

weather

senior

engineer.

bigdataanalysis.

Hisresearchinterests

interests

ZHANG

include

Ge

remote

,born

sensing

in1991

data

,M.

analysis

S.,senior

,software

engineer.

architecture.

Hisresearch


发布者:admin,转转请注明出处:http://www.yc00.com/web/1712953897a2154788.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信