2024年6月17日发(作者:)
1
NO.12 2023
智城实践
智能城市 INTELLIGENT CITY
风电检修语音记录转译文本的纠错技术研究
运佳恩 高永兵*
(内蒙古科技大学信息工程学院,内蒙古 包头 014010)
摘要:在风电自动检修服务中,语音转文字和文本纠错技术是关键的步骤。由于语音识别技术
的限制,常出现文本错误,可能导致检修结果的误判,进而影响风电系统的检修效率。为了提高风电
自动检修系统的效率,文章提出了一种BERT-BiLSTM-CRF模型,结合了BERT预训练模型、双向
LSTM(BiLSTM)和条件随机场(CRF)3种不同的模型。该模型利用目标化的分类掩盖方法将文本中
的各种错误进行归类,可以更准确地识别文本中的错误,提高BERT模型在文本纠错工作中的效率。
关键词:语音转译文本;BERT-BiLSTM-CRF模型;文本纠错
中图分类号:TN912 文献标识码:A 文章编号:2096-1936(2023)12-0001-04
DOI:10.19301/.2023.12.001
随着风电行业的快速发展,风电自动检修服务
不断优化,风电自动检修技术也在不断进步和完
善。在风电自动检修系统中,员工可以采用便携式
设备取代录音、纸质记录等方式,可为工作人员提
供便利,提高工作效率,降低某些安全隐患。风电
自动检修系统需要语音转文字和文本纠错技术提高
系统的识别和理解能力,从而提高系统的自动化程
度和准确性的理解和分析能力,保证自动检修系统
的高效运行。因此,为了确保风电自动检修系统的
准确性和可靠性,必须解决方言和专业词汇混杂使
用的问题。语音转文字和文本纠错的目的就是通过
技术手段对口音和专业术语进行识别和纠错,提高
系统的准确性和可靠性,减少错误,提高系统的智
能化水平。风电自动检修系统能够更准确、高效地
进行检修工作,提高风电设备的安全性和稳定性。
因为要修改的字不经常使用,N-gram
[1]
模式并不适
用该主题。BERT
[2]
中已有的Mask Language
[3]
模式可
以用于文字校正,但该算法采用了对文字进行无规
则遮挡的模式,导致无法精确地进行训练。
1 相关技术概述
1.1 语音识别原理
作为计算机语言学中一个交叉学科的分支,语
音辨识是语言学、计算机科学、电子工程学等学科
收稿日期:2023-08-28
作者简介:运佳恩,硕士,研究方向为自然语言处理。
通信作者:高永兵,硕士,副教授,研究方向为文本处理与分析。
基金项目:国家自然科学基金(项目编号:62161040);内蒙古自治区自然科学基金(项目编号:2021LHMS06004)
引用本文:运佳恩,高永兵.风电检修语音记录转译文本的纠错技术研究[J].智能城市,2023,9(12):1-4.
图1 语音识别原理
的结合,发展成了一种能够将语言的辨识和转换为
文字的技术。语音识别实质上就是让机器把人说出
来的话转化为可以被机器所理解的信息和数据,通
过对语音数据进行加工、整理、聚类等处理,得到
相应的模板。
语音识别原理如图1所示。
近年来,深度和点对点的学习在各种类型的工
作中都显示出了较强的提取特性,使语音的识别精
度大幅度提升。ASR
[4]
技术也逐渐被应用于各种场
合,并逐渐受到重视。
1.2 文本纠错原理
文本纠错技术可以分为两大类别,即基于规则
和基于统计的方法。基于规则的方法需要手动编写
规则检测和纠正文本中的错误,如正则表达式或规
则库,但需要大量的人力和时间编写规则,且很难
覆盖所有的错误类型。基于统计的方法则利用大规
模的语料库训练模型,以自动检测和纠正文本中的
智城实践
2
智能城市 INTELLIGENT CITY
NO.12 2023
错误,通常包括训练语言模型和错误模型两个步
骤。例如,基于统计的方法可以使用N-gram模型或
神经网络模型
[5]
检测和纠正错误,具有自适应不同
文本领域和风格的优点。
1.3 Transformer原理简述
Transformer
[6]
的双向编码器从2018年年底被推
出后就备受瞩目,成为Word2Vec
[7]
的替代品,在多
个方面的准确率都得到了极大提高,是近几年自残
差网络突破较大的技术之一。文本纠错通常使用
Transformer和双向模型,是因为这些模型在处理文
本序列任务时表现出色。
双向模型也是文本纠错任务中常用的模型,使
用双向循环神经网络(BiRNN)
[8]
学习序列中上下
文的信息,其中循环神经网络可以分别从序列的前
向和后向方向对序列进行处理。双向建模方法能够
更好地利用序列上下文信息,从而在文本纠错任务
中具有更好的表现。
1.4 BERT原理简述
BERT是一种预先培训的模式,其意义在于通
过对海量未加标记的资料进行无监督训练,获取包
括语言、句法、词义等在内的海量的先验性知识,
并通过对所学到的知识进行调整。
构造token的embeddings时,需要每个embedding
中都包括相关的文字和绝对的定位,以便使每一个
embedding都含有文字的顺序。在BERT中,各个标
记的绝对定位信息通常用position embeddings
[9]
表达,
也就是将一个任意点作为初始值,通过模型训练获
得一个含有定位的区域。通常使用segment
embedding指示下一步Sentence预设工作的各个token
的语句。选择BERT模式时,通常会把一个词用3种
embedding结合在一起。
BERT的输入向量如图2所示。
图2 BERT的输入向量
Token embedding表示字的量化,CLS标记被用
来进行分类工作,在其他工作中可以被忽视。
SEP”标记被用来分隔两个语句。
Segment embedding表示前和后两种语句的区
别,在进行下一步推理的练习时,用来识别前后的
不同语句。
Position embedding由上文可知通过模型训练得
到当前token的位置信息。
2 纠错模型设计
BERT-BiLSTM-CRF模型是一种基于深度学习
的序列标注模型,主要用于文本纠错任务,结合了
BERT预训练模型、双向LSTM(BiLSTM)
[10]
和条
件随机场(CRF)
[11]
3种不同的模型,以提高文本纠
错的准确性和效率。BERT模型提供了上下文信息
的丰富表示,BiLSTM模型可以更好地捕捉序列信
息的前后依赖关系,而CRF模型可以在全局上对标
签进行约束,从而避免局部最优解。因此,BERT-
BiLSTM-CRF模型可以更准确地识别文本中的错
误,并进行适当纠正。
2.1 针对性掩码策略
掩码语言模型的本质是一种具有双向的自注意
力和遮蔽机制的Transformer编码器,该译码者可以
在各个层次上对语境进行双向表达。
错误词主要出现在专业词的部分,指的是因为
发音问题、词汇生疏而无法辨认的单词,也就是在
语音辨识模组中出现的失误。在发音模组中,正确
单词的标注主要根据语音辨识的语句与人工聆听的
语句进行对比而得出。
BERT中的掩码语言模型(MLM)
[12]
机制原本
可以修正文字,调整掩码方法后,把模糊的错误分
为3种,即专业词错误、专用词杂糅、专业词切割。
专业词错误标注如表1所示。
表1 专业词错误标注
项目错误文本正确文本
错词标注嗯,菊园套烧穿了是吧?嗯,绝缘套烧穿了是吧?
杂糅标注变压汽油段保险丝熔断了。变压器有段保险丝熔断了。
切割标注
你仔细刀闸到站里面这你止息刀闸到站里面这
段电缆,他有故障。段电缆,他有故障。
2.2 检错阶段
BERT-BiLSTM-CRF是一个将CRF与BERT模
式相融合的综合模式。在获得一个待测的基因时,
把该序列导入BERT预培训模式,获得与被测序列
同样长的新序列,该序列由原来的文字形式转化成
矢量形式,且每一矢量都含有大量的语义,把新的
序列加入BiLSTM中,给新的顺序加上前后两种不
同的顺序,在CRF层中加入一个新的标记,对所预
测的标记加入一定限制,以确保标记的正确性。该
模式对3种不同的针对性错误(专业词错误、专业
“
词杂糅、专业词切割)进行了分类。
BERT-BiLSTM-CRF模型架构如图3所示。
图3 BERT-BiLSTM-CRF模型架构
2.2.1 BERT层
待检测的中文文本序用
W={w
1
,w
2
,⋯,w
n
}
表达。把这些输入顺序与BERT模式相匹配,在
BERT中产生3个单词(字符矢量、句子矢量和位置
矢量),把3个单词嵌套在一起,形成BERT的输入
顺序
X={x
1
,x
2
,⋯,x
n
}
。BERT的预习模型能够有
效地利用词语的前后两边的信息,从而获得更好的
词汇分配特征
[8]
。
2.2.2 BiLSTM层
中文的错误校正效果与语境的关系存在某种关
系,所以需要将语境的相关知识引入序列。在
BERT的输出顺序
X={x
1
,x
2
,⋯,x
n
}
后,将其添加
到LSTM的两个模式。第一个LSTM是正向流动,
token隐藏状态与上一个token隐藏状态和本token值
有关,得到隐层序列
H={h
1
,h
2
,⋯,h
n
}
中,
h'
i
的
值由
h'
i+1
的值和
x
i
的值计算得到,隐层序列
H
包含了
前向token的信息。第二个LSTM与第一个LSTM形
式相同,只是从前向变成了后向输入,因此隐层序
列
H'={h'
1
,h'
2
,⋯,h'
n
}
中,
h'
i
的值由
h'
i+1
的值和
x
i
的
值计算得到,隐层序列
H'
包含了后向token的信息。
将前向隐层序列H和后向的隐层序列
H'
直接拼接在
一起,就得到了同时包含前向信息和后向信息的序
列
Y={y
1
,y
2
,⋯,y
n
}
,其中
y
i
=[h
i
,h'
i
]
。BiLSTM
层最终的输出由包含过去的信息和包含将来的信息
共同组成。
2.2.3 CRF层
CRF的输出为BERT和BiLSTM两层的训练后的
序列
Y
,在此输入顺序上,根据机组培训模式,生
成对应该输入顺序的标记顺序
L
,并从一个特定标
3
智城实践
NO.12 2023
智能城市 INTELLIGENT CITY
记集合选择各个标记
L
。
将CRF的概念引入该模式。参照常用的顺序标
记方法,将CRF层置于神经网络结构的末级,将
BiLSTM的输出当作顺序的输入,并对各个字母进
行标记。
BERT模式装载了经过培训的谷歌chineseL-
12H-768A-12的checkpoint。在训练过程中,仅对
BiLSTM-CRF进行了参数的修正。采用4种顺序标
记模式对每个语句进行了独立的预测,根据方程式
进行判定:
Score=
(
∑
n
1
W
n
×M
n
)
/n
(1)
2.3 纠错阶段
在BERT的预先培训工作中,有一种掩码语言
模型是为了在含有mask标记的顺序中对mask进行预
言。MLM是一个典型的语言建模工作,可以被用来
预报遗漏的差错。本研究采用BERT掩码的方法对
缺失类型的差错进行校正。针对不同类型的标记,
如专业词错误、专业词杂糅、专业词切割等,给出
了相应的处理方法。
3 实验设计
在纠错过程中,利用BERT的掩码语言模式对
误分类进行了修正,利用BERT的掩码语言模式和
模糊集合的匹配对差错进行了预测。
3.1 实验环境及数据
3.1.1 实验环境
操作系统为Windows,开发语言为Python,开
发框架为pycharm。
通过对风力发电机组的维修过程进行分析,筛
选和剔除了无用的剩余33 701条错误文本,并对
50 139条错误文本进行熔断,将两者的测试集、验
证集和训练集的数量分别进行1∶1∶8的处理。
3.1.2 实验数据
本研究还建立了专用词词表,通过手工抽取专
门词汇和对其进行了归类,一种是风力发电行业中
使用的专门词汇,来自《电力术语汇总》的文献;
名词的出处是《电力术语汇总》,共有972个条目,
地名有4 356个,对每条数据进行标注。专业词错误
类错误,在冗余的位置标注“5”;专业词杂糅类错
误,在专业词杂糅的位置前后加标注“6”,非专业
词错误加标注“1”;专业词切割类错误,在错误的
位置分别标注“7”;非专业词错误类错误,在错误
位置标注“1”。
经过对4 356条数据进行数据清洗、数据构造和
智城实践
4
智能城市 INTELLIGENT CITY
NO.12 2023
数据标注,得到了一套由36 704条数据组成的数据
包,其中80%用于培训,20%用于检测。将同样数
目的恰当语句也加入测验集合,以供测试时参考。
3.1.3 评价标准
使用精确率、召回率和
F
1
值对实验结果进行
评估。
文本纠正的精确率为:
precisionC=
被正确纠正的错误的个数
实际应该被纠正的错误的个数
(2)
文本纠正的召回率为:
recallC=
被正确纠正的错误的个数
实际应该被纠正的错误的个数
(3)
F
1
值为:
F
·recallC
1
=
2·precisionC
precisionC+recallC
(4)
3.2 实验结果
检错阶段错误类型实验结果如表2所示。
表2 检错阶段错误类型实验结果
项目准确率/%召回率/%
F
1
值
专业类错误92.3097.810.940 4
杂糅类错误73.5083.040.762 1
切割类错误85.4092.030.872 3
专业类错误准确率最高为92.30%,召回率为
97.81%,
F
1
值为0.940 4。在后续研究中提高模型的
效率,应针对专业词杂糅类错误的识别进行提升。
纠错阶段错误类型实验结果如表3所示。
表3 纠错阶段错误类型实验结果
项目准确率/%召回率%
F
1
值
专业类错误92.3098.010.950 4
杂糅类错误67.4077.040.752 1
切割类错误85.3090.030.882 3
错误类错误在纠错模型中不需要进行任何附加
运算,只需要将多余的数据段替换即可,所以在精
度召唤和
F
1
数值方面,与误差检测模式的误差并无
差别。
4 结语
本研究在对标准文档进行学习和研究的基础
上,提出了一种以BERT为基础的标准文档错误校
正模式。该模式将故障检测和纠正两个环节结合,
可显著提高风力维修话音录音翻译中的文字错误校
正效率。在错误检测方面,采用BERT-BiLSTM-
CRF模型进行错误检测,其中BERT层补充语义,
BiLSTM提取背景信息,CRF规范化文字标记。通过
3个层次的构造,可以获得包含正确和不正确文字
标记的相应顺序标记。利用名称本体辨识技术对序
列中的实体进行识别,并根据其与本体之间的联系
来决定标记的处理方式,包括保留或删除。误差校
正采用mask代替不正确或遗漏的错误,在BERT的
遮蔽和模糊集合比对相结合的基础上,估计出现的
错位或遗漏的缺失标记,并获得多个候选语句。
参考文献
[1] Popović M. ChrF: Character n-gram F-score for automatic
MT evaluation[C]//Proceedings of the Tenth Workshop on
Statistical Machine Translation. Lisbon: Association for
Computational Linguistics, 2015.
[2] Bert N L, Tan A T, Kunasegaran K, et al. SARS-CoV-2-
specific T cell immunity in cases of COVID-19 and SARS,
and uninfected controls[J]. Nature, 2020, 584(7821):
457-462.
[3] Wettig A, Gao T, Zhong Z, et al. Should you mask 15% in
masked language modeling?[J]. Arxiv, 2022, 2: 217.
[4] Asr E T, Kakaie R, Ataei M, et al. A review of studies on
sustainable development in mining life cycle[J]. Journal of
Cleaner Production, 2019, 229: 213-231.
[5] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学
报,2017,40(6):1229-1251.
[6] Han K, Xiao A, Wu E, et al. Transformer in transformer[J].
Advances in Neural Information Processing Systems, 2021,
34: 15908-15919.
[7] Church K W. Emerging trends:
Word2Vec[J]. Natural
Language Engineering, 2017, 23(1): 155-162.
[8] Werthen-Brabants L, Bhavanasi G, Couckuyt I, et al. Split
BiRNN for real-time activity recognition using radar and
deep learning[J]. Scientific Reports, 2022, 12(1): 7436.
[9] Wang B, Shang L, Lioma C, et al. On position embeddings
in bert[C]//International Conference on Learning
Representations. 2021.
[10] Lu W, Li J, Wang J, et al. A CNN-BiLSTM-AM method
for stock price prediction[J]. Neural Computing and
Applications, 2021, 33: 4741-4753.
[11] Bale T L, Vale W W. CRF and CRF receptors: Role in
stress responsivity and other behaviors[J]. Annual Review of
Pharmacology & Toxicology, 2004, 44: 525-557.
[12] Utama Q D, Sitanggang A B, Adawiyah D R, et al. Lipase-
catalyzed interesterification for the synthesis of medium-
long-medium (MLM) structured lipids—A review[J]. Food
Technology and Biotechnology, 2019, 57(3): 305.
发布者:admin,转转请注明出处:http://www.yc00.com/news/1718568885a2751114.html
评论列表(0条)