风电检修语音记录转译文本的纠错技术研究

风电检修语音记录转译文本的纠错技术研究


2024年6月17日发(作者:)

1

NO.12 2023

智城实践

智能城市 INTELLIGENT CITY

风电检修语音记录转译文本的纠错技术研究

运佳恩 高永兵*

(内蒙古科技大学信息工程学院,内蒙古 包头 014010)

摘要:在风电自动检修服务中,语音转文字和文本纠错技术是关键的步骤。由于语音识别技术

的限制,常出现文本错误,可能导致检修结果的误判,进而影响风电系统的检修效率。为了提高风电

自动检修系统的效率,文章提出了一种BERT-BiLSTM-CRF模型,结合了BERT预训练模型、双向

LSTM(BiLSTM)和条件随机场(CRF)3种不同的模型。该模型利用目标化的分类掩盖方法将文本中

的各种错误进行归类,可以更准确地识别文本中的错误,提高BERT模型在文本纠错工作中的效率。

关键词:语音转译文本;BERT-BiLSTM-CRF模型;文本纠错

中图分类号:TN912 文献标识码:A 文章编号:2096-1936(2023)12-0001-04

DOI:10.19301/.2023.12.001

随着风电行业的快速发展,风电自动检修服务

不断优化,风电自动检修技术也在不断进步和完

善。在风电自动检修系统中,员工可以采用便携式

设备取代录音、纸质记录等方式,可为工作人员提

供便利,提高工作效率,降低某些安全隐患。风电

自动检修系统需要语音转文字和文本纠错技术提高

系统的识别和理解能力,从而提高系统的自动化程

度和准确性的理解和分析能力,保证自动检修系统

的高效运行。因此,为了确保风电自动检修系统的

准确性和可靠性,必须解决方言和专业词汇混杂使

用的问题。语音转文字和文本纠错的目的就是通过

技术手段对口音和专业术语进行识别和纠错,提高

系统的准确性和可靠性,减少错误,提高系统的智

能化水平。风电自动检修系统能够更准确、高效地

进行检修工作,提高风电设备的安全性和稳定性。

因为要修改的字不经常使用,N-gram

[1]

模式并不适

用该主题。BERT

[2]

中已有的Mask Language

[3]

模式可

以用于文字校正,但该算法采用了对文字进行无规

则遮挡的模式,导致无法精确地进行训练。

1 相关技术概述

1.1 语音识别原理

作为计算机语言学中一个交叉学科的分支,语

音辨识是语言学、计算机科学、电子工程学等学科

收稿日期:2023-08-28

作者简介:运佳恩,硕士,研究方向为自然语言处理。

通信作者:高永兵,硕士,副教授,研究方向为文本处理与分析。

基金项目:国家自然科学基金(项目编号:62161040);内蒙古自治区自然科学基金(项目编号:2021LHMS06004)

引用本文:运佳恩,高永兵.风电检修语音记录转译文本的纠错技术研究[J].智能城市,2023,9(12):1-4.

图1 语音识别原理

的结合,发展成了一种能够将语言的辨识和转换为

文字的技术。语音识别实质上就是让机器把人说出

来的话转化为可以被机器所理解的信息和数据,通

过对语音数据进行加工、整理、聚类等处理,得到

相应的模板。

语音识别原理如图1所示。

近年来,深度和点对点的学习在各种类型的工

作中都显示出了较强的提取特性,使语音的识别精

度大幅度提升。ASR

[4]

技术也逐渐被应用于各种场

合,并逐渐受到重视。

1.2 文本纠错原理

文本纠错技术可以分为两大类别,即基于规则

和基于统计的方法。基于规则的方法需要手动编写

规则检测和纠正文本中的错误,如正则表达式或规

则库,但需要大量的人力和时间编写规则,且很难

覆盖所有的错误类型。基于统计的方法则利用大规

模的语料库训练模型,以自动检测和纠正文本中的

智城实践

2

智能城市 INTELLIGENT CITY

NO.12 2023

错误,通常包括训练语言模型和错误模型两个步

骤。例如,基于统计的方法可以使用N-gram模型或

神经网络模型

[5]

检测和纠正错误,具有自适应不同

文本领域和风格的优点。

1.3 Transformer原理简述

Transformer

[6]

的双向编码器从2018年年底被推

出后就备受瞩目,成为Word2Vec

[7]

的替代品,在多

个方面的准确率都得到了极大提高,是近几年自残

差网络突破较大的技术之一。文本纠错通常使用

Transformer和双向模型,是因为这些模型在处理文

本序列任务时表现出色。

双向模型也是文本纠错任务中常用的模型,使

用双向循环神经网络(BiRNN)

[8]

学习序列中上下

文的信息,其中循环神经网络可以分别从序列的前

向和后向方向对序列进行处理。双向建模方法能够

更好地利用序列上下文信息,从而在文本纠错任务

中具有更好的表现。

1.4 BERT原理简述

BERT是一种预先培训的模式,其意义在于通

过对海量未加标记的资料进行无监督训练,获取包

括语言、句法、词义等在内的海量的先验性知识,

并通过对所学到的知识进行调整。

构造token的embeddings时,需要每个embedding

中都包括相关的文字和绝对的定位,以便使每一个

embedding都含有文字的顺序。在BERT中,各个标

记的绝对定位信息通常用position embeddings

[9]

表达,

也就是将一个任意点作为初始值,通过模型训练获

得一个含有定位的区域。通常使用segment

embedding指示下一步Sentence预设工作的各个token

的语句。选择BERT模式时,通常会把一个词用3种

embedding结合在一起。

BERT的输入向量如图2所示。

图2 BERT的输入向量

Token embedding表示字的量化,CLS标记被用

来进行分类工作,在其他工作中可以被忽视。

SEP”标记被用来分隔两个语句。

Segment embedding表示前和后两种语句的区

别,在进行下一步推理的练习时,用来识别前后的

不同语句。

Position embedding由上文可知通过模型训练得

到当前token的位置信息。

2 纠错模型设计

BERT-BiLSTM-CRF模型是一种基于深度学习

的序列标注模型,主要用于文本纠错任务,结合了

BERT预训练模型、双向LSTM(BiLSTM)

[10]

和条

件随机场(CRF)

[11]

3种不同的模型,以提高文本纠

错的准确性和效率。BERT模型提供了上下文信息

的丰富表示,BiLSTM模型可以更好地捕捉序列信

息的前后依赖关系,而CRF模型可以在全局上对标

签进行约束,从而避免局部最优解。因此,BERT-

BiLSTM-CRF模型可以更准确地识别文本中的错

误,并进行适当纠正。

2.1 针对性掩码策略

掩码语言模型的本质是一种具有双向的自注意

力和遮蔽机制的Transformer编码器,该译码者可以

在各个层次上对语境进行双向表达。

错误词主要出现在专业词的部分,指的是因为

发音问题、词汇生疏而无法辨认的单词,也就是在

语音辨识模组中出现的失误。在发音模组中,正确

单词的标注主要根据语音辨识的语句与人工聆听的

语句进行对比而得出。

BERT中的掩码语言模型(MLM)

[12]

机制原本

可以修正文字,调整掩码方法后,把模糊的错误分

为3种,即专业词错误、专用词杂糅、专业词切割。

专业词错误标注如表1所示。

表1 专业词错误标注

项目错误文本正确文本

错词标注嗯,菊园套烧穿了是吧?嗯,绝缘套烧穿了是吧?

杂糅标注变压汽油段保险丝熔断了。变压器有段保险丝熔断了。

切割标注

你仔细刀闸到站里面这你止息刀闸到站里面这

段电缆,他有故障。段电缆,他有故障。

2.2 检错阶段

BERT-BiLSTM-CRF是一个将CRF与BERT模

式相融合的综合模式。在获得一个待测的基因时,

把该序列导入BERT预培训模式,获得与被测序列

同样长的新序列,该序列由原来的文字形式转化成

矢量形式,且每一矢量都含有大量的语义,把新的

序列加入BiLSTM中,给新的顺序加上前后两种不

同的顺序,在CRF层中加入一个新的标记,对所预

测的标记加入一定限制,以确保标记的正确性。该

模式对3种不同的针对性错误(专业词错误、专业

词杂糅、专业词切割)进行了分类。

BERT-BiLSTM-CRF模型架构如图3所示。

图3 BERT-BiLSTM-CRF模型架构

2.2.1 BERT层

待检测的中文文本序用

W={w

1

,w

2

,⋯,w

n

}

表达。把这些输入顺序与BERT模式相匹配,在

BERT中产生3个单词(字符矢量、句子矢量和位置

矢量),把3个单词嵌套在一起,形成BERT的输入

顺序

X={x

1

,x

2

,⋯,x

n

}

。BERT的预习模型能够有

效地利用词语的前后两边的信息,从而获得更好的

词汇分配特征

[8]

2.2.2 BiLSTM层

中文的错误校正效果与语境的关系存在某种关

系,所以需要将语境的相关知识引入序列。在

BERT的输出顺序

X={x

1

,x

2

,⋯,x

n

}

后,将其添加

到LSTM的两个模式。第一个LSTM是正向流动,

token隐藏状态与上一个token隐藏状态和本token值

有关,得到隐层序列

H={h

1

,h

2

,⋯,h

n

}

中,

h'

i

值由

h'

i+1

的值和

x

i

的值计算得到,隐层序列

H

包含了

前向token的信息。第二个LSTM与第一个LSTM形

式相同,只是从前向变成了后向输入,因此隐层序

H'={h'

1

,h'

2

,⋯,h'

n

}

中,

h'

i

的值由

h'

i+1

的值和

x

i

值计算得到,隐层序列

H'

包含了后向token的信息。

将前向隐层序列H和后向的隐层序列

H'

直接拼接在

一起,就得到了同时包含前向信息和后向信息的序

Y={y

1

,y

2

,⋯,y

n

}

,其中

y

i

=[h

i

,h'

i

]

。BiLSTM

层最终的输出由包含过去的信息和包含将来的信息

共同组成。

2.2.3 CRF层

CRF的输出为BERT和BiLSTM两层的训练后的

序列

Y

,在此输入顺序上,根据机组培训模式,生

成对应该输入顺序的标记顺序

L

,并从一个特定标

3

智城实践

NO.12 2023

智能城市 INTELLIGENT CITY

记集合选择各个标记

L

将CRF的概念引入该模式。参照常用的顺序标

记方法,将CRF层置于神经网络结构的末级,将

BiLSTM的输出当作顺序的输入,并对各个字母进

行标记。

BERT模式装载了经过培训的谷歌chineseL-

12H-768A-12的checkpoint。在训练过程中,仅对

BiLSTM-CRF进行了参数的修正。采用4种顺序标

记模式对每个语句进行了独立的预测,根据方程式

进行判定:

Score=

(

n

1

W

n

×M

n

)

/n

(1)

2.3 纠错阶段

在BERT的预先培训工作中,有一种掩码语言

模型是为了在含有mask标记的顺序中对mask进行预

言。MLM是一个典型的语言建模工作,可以被用来

预报遗漏的差错。本研究采用BERT掩码的方法对

缺失类型的差错进行校正。针对不同类型的标记,

如专业词错误、专业词杂糅、专业词切割等,给出

了相应的处理方法。

3 实验设计

在纠错过程中,利用BERT的掩码语言模式对

误分类进行了修正,利用BERT的掩码语言模式和

模糊集合的匹配对差错进行了预测。

3.1 实验环境及数据

3.1.1 实验环境

操作系统为Windows,开发语言为Python,开

发框架为pycharm。

通过对风力发电机组的维修过程进行分析,筛

选和剔除了无用的剩余33 701条错误文本,并对

50 139条错误文本进行熔断,将两者的测试集、验

证集和训练集的数量分别进行1∶1∶8的处理。

3.1.2 实验数据

本研究还建立了专用词词表,通过手工抽取专

门词汇和对其进行了归类,一种是风力发电行业中

使用的专门词汇,来自《电力术语汇总》的文献;

名词的出处是《电力术语汇总》,共有972个条目,

地名有4 356个,对每条数据进行标注。专业词错误

类错误,在冗余的位置标注“5”;专业词杂糅类错

误,在专业词杂糅的位置前后加标注“6”,非专业

词错误加标注“1”;专业词切割类错误,在错误的

位置分别标注“7”;非专业词错误类错误,在错误

位置标注“1”。

经过对4 356条数据进行数据清洗、数据构造和

智城实践

4

智能城市 INTELLIGENT CITY

NO.12 2023

数据标注,得到了一套由36 704条数据组成的数据

包,其中80%用于培训,20%用于检测。将同样数

目的恰当语句也加入测验集合,以供测试时参考。

3.1.3 评价标准

使用精确率、召回率和

F

1

值对实验结果进行

评估。

文本纠正的精确率为:

precisionC=

被正确纠正的错误的个数

实际应该被纠正的错误的个数

(2)

文本纠正的召回率为:

recallC=

被正确纠正的错误的个数

实际应该被纠正的错误的个数

(3)

F

1

值为:

F

·recallC

1

=

2·precisionC

precisionC+recallC

(4)

3.2 实验结果

检错阶段错误类型实验结果如表2所示。

表2 检错阶段错误类型实验结果

项目准确率/%召回率/%

F

1

专业类错误92.3097.810.940 4

杂糅类错误73.5083.040.762 1

切割类错误85.4092.030.872 3

专业类错误准确率最高为92.30%,召回率为

97.81%,

F

1

值为0.940 4。在后续研究中提高模型的

效率,应针对专业词杂糅类错误的识别进行提升。

纠错阶段错误类型实验结果如表3所示。

表3 纠错阶段错误类型实验结果

项目准确率/%召回率%

F

1

专业类错误92.3098.010.950 4

杂糅类错误67.4077.040.752 1

切割类错误85.3090.030.882 3

错误类错误在纠错模型中不需要进行任何附加

运算,只需要将多余的数据段替换即可,所以在精

度召唤和

F

1

数值方面,与误差检测模式的误差并无

差别。

4 结语

本研究在对标准文档进行学习和研究的基础

上,提出了一种以BERT为基础的标准文档错误校

正模式。该模式将故障检测和纠正两个环节结合,

可显著提高风力维修话音录音翻译中的文字错误校

正效率。在错误检测方面,采用BERT-BiLSTM-

CRF模型进行错误检测,其中BERT层补充语义,

BiLSTM提取背景信息,CRF规范化文字标记。通过

3个层次的构造,可以获得包含正确和不正确文字

标记的相应顺序标记。利用名称本体辨识技术对序

列中的实体进行识别,并根据其与本体之间的联系

来决定标记的处理方式,包括保留或删除。误差校

正采用mask代替不正确或遗漏的错误,在BERT的

遮蔽和模糊集合比对相结合的基础上,估计出现的

错位或遗漏的缺失标记,并获得多个候选语句。

参考文献

[1] Popović M. ChrF: Character n-gram F-score for automatic

MT evaluation[C]//Proceedings of the Tenth Workshop on

Statistical Machine Translation. Lisbon: Association for

Computational Linguistics, 2015.

[2] Bert N L, Tan A T, Kunasegaran K, et al. SARS-CoV-2-

specific T cell immunity in cases of COVID-19 and SARS,

and uninfected controls[J]. Nature, 2020, 584(7821):

457-462.

[3] Wettig A, Gao T, Zhong Z, et al. Should you mask 15% in

masked language modeling?[J]. Arxiv, 2022, 2: 217.

[4] Asr E T, Kakaie R, Ataei M, et al. A review of studies on

sustainable development in mining life cycle[J]. Journal of

Cleaner Production, 2019, 229: 213-231.

[5] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学

报,2017,40(6):1229-1251.

[6] Han K, Xiao A, Wu E, et al. Transformer in transformer[J].

Advances in Neural Information Processing Systems, 2021,

34: 15908-15919.

[7] Church K W. Emerging trends:

Word2Vec[J]. Natural

Language Engineering, 2017, 23(1): 155-162.

[8] Werthen-Brabants L, Bhavanasi G, Couckuyt I, et al. Split

BiRNN for real-time activity recognition using radar and

deep learning[J]. Scientific Reports, 2022, 12(1): 7436.

[9] Wang B, Shang L, Lioma C, et al. On position embeddings

in bert[C]//International Conference on Learning

Representations. 2021.

[10] Lu W, Li J, Wang J, et al. A CNN-BiLSTM-AM method

for stock price prediction[J]. Neural Computing and

Applications, 2021, 33: 4741-4753.

[11] Bale T L, Vale W W. CRF and CRF receptors: Role in

stress responsivity and other behaviors[J]. Annual Review of

Pharmacology & Toxicology, 2004, 44: 525-557.

[12] Utama Q D, Sitanggang A B, Adawiyah D R, et al. Lipase-

catalyzed interesterification for the synthesis of medium-

long-medium (MLM) structured lipids—A review[J]. Food

Technology and Biotechnology, 2019, 57(3): 305.


发布者:admin,转转请注明出处:http://www.yc00.com/news/1718568885a2751114.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信