面向机器学习的流式文档逻辑结构标注方法研究

面向机器学习的流式文档逻辑结构标注方法研究

2023年7月25日发(作者:)

第33卷第9期2019年9月中文信息学报JOURNAL

OF

CHINESE

INFORMATION

PROCESSINGVol.

33,

No.

9Sept.,

2019文章编号:1003-0077(2019)09-0050-10面向机器学习的流式文档逻辑结构标注方法研究刘倩,李宁,田英爱(北京信息科技大学计算机学院.北京100101)摘要:针对釆用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题.该文在研究文档的逻辑结

构和编辑语义特征的基础上.确立流式文档逻辑结构标注体系.并提出一种三段式的半自动文档逻辑结构标注方

法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向

量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对丈档结构识别的

准确率与召回率,F值达到97.

5%。关键词:结构标注;文档结构识别;机器学习中图分类号:TP391

文献标识码:AAnnotation

of

Logical

Structure

in

Re-flowable

Document

for

Machine LearningLIU

Qian,

LI

Ning,

TIAN

Yingai(School

of

Computer.

Beijing

Information

Science

&

Technology

University,

Beijing

100101.

China)Abstract:

To

construct

the

corpus

of

logical

structure

in

re-flowable

documents

for

machine

learning,

this

paper

pro­posed

a

three-stage

semi-automatic

annotation

method

based

on

the

logical

structure

features

and

editing

semantic

features.

In

the

first

stage,

document

metadata

is

identified

and

an

notated

aided

by

the

machine;

in

the

second

stage,

the

logical

structure

of

the

document

is

reconstructed

automatically;

finally,

the

feature

vectors

are

automati­cally

produced

in

the

ihird

stage.

The

experimental

result

shows

that

the

proposed

method

can

reduce

manual

costs,

and

the

document

corpus

achieved

can

improve

the

accuracy

of

document

structure

recognition

using

machine

learn­ing

algorithm

up

to

97.

5

%

ds:structure

annotation;document

structure

recognition;machine

learning杂性、排版风格的差异性等因素导致计算机自动理

0引言随着电子文档数量日益增加以及传播日益广

解其结构较为困难。目前基于流式文档排版样式的结构理解成果较

少。流式文档中除文本之外,还包含丰富的排版样

式(例如,字体、字号、对齐方式等)以及编辑语义(例

泛,人们希望计算机能够自动理解文档。计算机对

文档的理解包括对文本内容的理解和对文档逻辑结

如编号、大纲级别、段落、题注等)•如果能够充分利

构的理解.两者相辅相成,前者可用于信息抽取.后

者可用于数字出版、结构化检索等研究。目前对文

用这些信息,文档结构的识别结果会更加准确

这种方法在文本内容特征之上增加了流式文档中特

本内容的研究较多.对文档结构的研究则多面向版

式文档。流式文档的结构理解与版式文档结构理解

有的编辑对象特征和样式特征等,以辅助判断文档

结构,近年取得了较好的效果文档逻辑结构识别中用得最多的是基于规则的

的目的不同。前者由于其自身可编辑的特点,结构

理解的结果可用于文档检查优化、自动排版等目的。

后者主要分析正规出版物版面区块的性质和关联顺

方法,它根据特定类型文档来制定匹配规则,适用范

围较为有限卩“。此外是基于机器学习的方法,以往

主要应用于版式文档结构理解.近年来机器学习

序.用于版面重组和阅读。由于流式文档格式的复

收稿日期:2018-12-17

定稿日期:2019-03-16基金项目:国家白然科学基金(61672105);国家重点研发计划(2018YFB1004100)9期刘倩等:面向机器学习的流式文档逻辑结构标注方法研究51方法也逐渐应用于流式文档的逻辑结构识别。然而

由于流式文档格式复杂、标注困难.过去积累的成果

较少,机器学习方法用于流式文档结构理解面临语

料标注成本过高,语料库稀缺的问题。本文以面向

机器学习的流式文档逻辑结构识别为目标,尝试使

用半自动化方法提高语料标注效率,为篇章结构分

析、信息抽取、信息检索以及文档检查优化等应用打

下基础。1相关研究目前尚未见到针对文档逻辑结构的语料标注研

究,常见的语料标注技术主要针对自然语言处理,对

文本信息所表达的语义、命名实体、事件信息等进行

标注“而文档逻辑结构标注需要以整篇文档

为标注对象,明确文档中各部分内容之间的逻辑关

系。文档语料库的构建,涉及文档逻辑结构描述、文

档编辑语义特征提取、语料标注方法等关键技术。在文档逻辑结构描述方面,需要参考相关的元

数据标准。JATS是一种基于XML的期刊论文

数据存储和交换元数据规范,对其他类型的文档描

述能力不强。DocBookC14]则是一种关于书籍的元

数据结构规范,其元素颗粒度较细,不宜直接用于文

档逻辑结构标注。其他的元数据规范多少都存在类

似的问题。在实际中需要根据应用需求选取合适的

颗粒度,并对其进行裁剪和扩展。在特征提取方面,以往研究最多的是文本内容

特征,例如,文献口

5]分析了学术报告的标题内容写

作规律,采用决策树识别文档逻辑结构。近几年一

些研究结合排版样式来识别文档的逻辑结构•例如,

文献[5]将文档样式特征纳入特征向量,使用VSM

模型来识别文档逻辑结构。文献[2]使用OCR技

术从PDF文档中分析出文字的字号、对齐方式等样

式信息,将其与纯文本特征相结合来识别学术论文

的逻辑结构,然而从版式文档中抽取特征的过程比

较复杂,特征值较流式文档也有一定误差。在语料标注方法方面,由于流式文档格式复杂•

无法使用文本形式的标注方法,大多数自然语言研

究中的标注方法不适于此。文献口6]结合文档内容

与结构信息,从带有结构信息标注的学术期刊语料

库中提取文章关键词,但没有说明语料标注方法。

文献[17]提出了一种Word文档XML结构化标记

方法,以自定义样式的形式标注文档逻辑结构•但该

方法的标注结果难以实现机器读取,也破坏了原始

文档的排版样式。文献口8]提出了一种两段式的

HTML文档语义标注框架:第一阶段解析HTML

文档,自动抽取结构化信息;第二阶段指定实例与词

汇间的映射关系,并生成标注,降低了人工标注的工

作量,但是HTML格式过于简单,该方法难以用于

办公软件生成的复杂流式文档。综上,现有研究不能满足基于机器学习方法的

流式文档逻辑结构识别对标注语料数据的需求。针

对该问题,本文首先构建描述流式文档逻辑结构的

元数据标注体系,提取文档编辑语义特征,构造结构

标注树模型;其次设计一种三段式的半自动化标注

方法;最后通过实验证明本文方法在提高标注效率

与标注准确率方面的成效。流式文档格式包括D()C、DOCX/OOXML,

()DF、HTML等。本文选取目前使用最广泛的

DOCX/OOXML格式文档为研究对象。对于其他

格式的流式文档,本文的理论方法也同样适用。2流式文档逻辑结构标注体系流式文档是使用流式布局对文档内容进行灌排

的一种文档存储格式,微软的DOCX/OOXML格式

即典型代表。流式文档可看作是有限的段落序列,

不同段落在整篇文档中表达着不同的文档语义。本

文将描述文档语义的数据抽象为文档元数据•如文

章题目、摘要、作者、各级标题和正文段落等。文档

逻辑结构描述文档元数据之间的层次关系。在一篇

经过排版的流式文档中,可以结合文档内容与排版

样式等特征来理解文档逻辑结构。因此流式文档逻

辑结构标注就是明确文档逻辑结构并将之与文档特

征相关联,最终生成标注语料的过程。标注体系的建立是语料标注前的必备工作。首

先要确定颗粒度适合的文档元数据,并构造较为通

用的文档逻辑结构描述模式(schema);其次要深入

分析流式文档排版规律,归纳出可用于文档逻辑结

构识别的文档编辑语义特征;最后设计文档逻辑结

构标注模型,并确定语料编码方式。2.

1文档逻辑结构流式文档类型多样,根据应用领域可分为学术

论文、学位论文、专利、标准、著作、法律条文、新闻、

杂志和一般文件等。为不同类型文档分别确立文档

逻辑结构将带来大量的重复工作,同时还导致标注

语料泛化程度过低。标注体系的确立与语料加工是 52中文信息学报2019

年语料库建设中的重点•也较为耗时。本文采用“积木

综上所述,本文选取DocBook架构作为文档逻

法”〔⑷研究文档逻辑结构标注体系,按照文档类型

辑结构标注体系的理论基础,结合文档逻辑结构识

别的应用需求对其进行剪裁,并选取合适的元数据

颗粒度,确定了期刊论文的逻辑结构,如图1所示

划分语料数据,首先研究学术论文类文档逻辑结构,

未来再将其扩展至其他文档类型,这样能快速满足

最重要的应用需求。因此,在确定学术论文逻辑结

(省略了底层细节)。一篇期刊论文首先包括论文题

目、作者信息、摘要等篇头信息;其次是章节、子章

节、正文、公式、图表等文档主体内容;最后是篇尾的

致谢、参考文献等信息。标注语料应符合XMI.

构时,应使其尽可能通用且易于扩展。另外,对文档

逻辑结构的描述要选取适合的颗粒度,若颗粒度过

细,会导致逻辑结构过于复杂,给标注带来困难;若

颗粒度过粗.会导致特征难以提取,或标注结果无法

Schema表示的文档逻辑结构规范。虽然不同类别文档的逻辑结构不同,但其结构

使用。DocBook体系庞大,拥有超过400个元素,能

对书籍或类似书籍的文档结构进行细粒度的规范化

描述,其结构适用于大多数类型的文档。基于Doc-

多有交叉与重叠,如文档题目、作者、主体章节等。

若要应用至其他文档类型,只需从DocBook中剪裁

或自定义合适的元素与结构,对此进行修改与扩展

即可。这样不仅能够减少工作量,而且能够减少由

Book健壮的体系结构,若未来延伸文档语料库应用

领域,或进行更深入细致研究时,无论在文档类型还

于不同文档类型之间差异性而在标注方法设计与语

是元数据颗粒度方面都能进行扩展。料加工时带来的复杂性。图1期刊论文类型的文档逻辑结构描述2.2文档编辑语义特征相对于纯文本与版式文档,流式文档中不仅记

录了文本、图表等内容,还包含很多与文档内容相关

档逻辑结构。本节深入分析了文档排版规则与写作

习惯.挖掘出可用于文档逻辑结构识别的编辑语义

特征,将其表示为机器可读的特征向量。下面将从

的排版样式信息与编辑对象信息,这些统称为文档

编辑语义特征,结合这些特征可以更准确地理解文

内容特征、样式特征与编辑对象特征三个方面进行

详细讨论。9期刘倩等:面向机器学习的流式文档逻辑结构标注方法研究532.2.

1内容特征文档中的文本信息是用来识别文档逻辑结构最

直接有效的特征。比如通过标题中关键的文字内容

进、段前间距以及段后间距。举例来说,相对字号

RFS的计算如式(1)所示。RFS来辨别出摘要、引言等元数据;又如通过标注单元是

否以标点符号结束来区分标题与正文。本文选取6

FS

-

FSmostMAX_FS』一MIN_FS“(1)其中,FS为实际字号,MAX_FS』与MIN_FS』

种内容特征.对其进行了详细描述.如表1所示。表1内容特征分别是文档d中的最大字号与最小字号,FSmos,是文

档d中占比最大的字号。2.

2.

3

编辑对象特征举例流式文档中包含有大量的文本、图像、表格和公

式等数据.这些数据在流式文档中分别存储为不同

的编辑对象,可通过Word对象模型来自动读取文

内容特征关键词描述出现在段首且能够明确文档摘要、Keywords.语义的标识性词语图、表等编号类型出现在段首或段尾的编号

X.

X、第X章、档编辑对象特征,快速判断段落逻辑角色.在此基础

上也可通过上下文关系进一步分析其他段落的逻辑

类型(X)等段首、段尾是、否编号位置编号所在位置角色。另外,根据图片对象的显示特征可将正常图

段尾标点段落是否以标点符号结束句数字数片和以图片表示的公式加以区分。因此本文将对象

特征类别、对象长度、对象高度纳入特征向量。段落中的句数段落中的字数整数数值整数数值2.3标注模型与编码方法流式文档逻辑结构标注的实质是建立文档逻辑

结构树并将其节点与文档编辑语义特征相关联,最

2.2.2

样式特征流式文档中有丰富的排版样式,人们在日常写

作中也常用不同的排版样式来区别不同的文档元数

据。例如,不同章节的标题一般设置为不同的字号、

段首缩进等;又如图题对齐方式常为居中对齐。将

内容特征与样式特征有效地结合.能够更准确地识

后生成XML形式的标注结果。然而流式文档格式

底层以序列形式存储文档内容,如何将其转化为树

形的文档逻辑结构呢?本文提出了一种文档逻辑结

构标注模型,在该模型中,通过标注文档元数据建立

别出各段落所属的逻辑角色。本文选取了7种样式

文档编辑语义特征和文档逻辑结构树的映射关系,

如图2所示。相关概念表述如下。特征:相对字号、粗体、对齐方式、大纲级别、首行缩

原始文档树[w:document

]文档逻辑结构树IDST)文档语义单元丁」文档语义单元丁论文标题一级标题正文段落正文段落标注元数据

..........W图2文档逻辑结构标注模型定义1

文档逻辑结构树(Document

Structure

续的内容区域.表示了独立的文档语义,文档语义单

Tree,

DST),用于描述文档元数据之间的层次关

系。DST可表示为三元组:Vroot,

V,

C>,其中

元集合记为U,其颗粒度与文档逻辑结构树的叶节

点相符。定义3标注元数据,用于描述文档结构语义

root表示DST的根节点,V与C分别表示节点与连

接的集合。定义2文档语义单元,是流式文档中一段连

的数据,与DST中一条从根节点到叶节点的路径相

对应,标注元数据集合记为TM。本文定义的标注 54中文信息学报2019

年元数据与路径对应关系如表2所述,其中路径信息

定义4

标注单元,是使用标注元数据tag,

用XPath描述。表2文档逻辑结构标注元数据名称

path

()对文档语义单元进行标注操

作mark(“,,tag)而形成的一条标注结果,记为:,tag>。标注一篇文档,可得到文档标注单元的偏序集

合M:{加”,”=1,2,…,N}。如果原始文档结构正

确并且标注合理,那么文档元数据标注结果中就含

首作者部元数Kr据由

摘要a有了文档全部的语义角色,以及元数据间的层次关

系,由此我们可以自动重建文档逻辑结构树。e■mma

1/i3三段式的流式文档逻辑结构半自动标注

方法artcle

le

在流式文档中标注逻辑结构有一定难度。一方

面,元数据标签繁多,而且直接在文档内容中插入标

签会破坏原始文档状态;另一方面,文档编辑语义特

ce/arti

征复杂多样.直接以人工方式在文档中标注是不现

le题a实的,而且不能保证标注结果的正确性。本文提出

了一种三段式的文档逻辑结构半自动标注方法,将

主体元数据图片图题

表题

表格

ae人工标注与自动化技术相结合,降低人工标注难度

1/t并提高标注效率。如图3所示,第一阶段在流式文

档中以机助人工方式添加分离式的文档元数据标

签;第二阶段自动重建文档逻辑结构,用XML文档

记录;第三阶段自动提取并填充文档编辑语义特征,

最终形成结构化的XML标注文档。3.1分离式的文档元数据标注方法语料标注一般有两种形式,一是嵌入式标注,直

接在文本中插入标签,其原理简单,易于实现,但会

破坏原始语料信息;二是分离式标注,标签不插入到

原始语料中,而是以一定方式与原始语料相关联,这

图3三段式的文档逻辑结构半自动化标注方法9期刘倩等:面向机器学习的流式文档逻辑结构标注方法研究55种方式不仅能够保留原始语料的状态,而且也会使

得后续的修改更加容易,便于与其他标注合并哪

在流式文档中易于使用的分离式标注手段并不多,

本文选择利用文档批注机制来做标注。流式文档编

辑器中的批注是绑定在连续文档内容范围上的附加

标签,并对应地显示于文档视图界面的右侧。其特

点是与流式文档中原始的文本、图片、表格等内容独

立显示又相互关联,不破坏原始文档排版样式又便

于人的观察和操作。因此本文基于文档批注,开发

了标注插件,以机助人工的方式标注文档元数据。3.2文档逻辑结构重建算法文档元数据标注结果中明确了被标注内容的语

义,而XML

Schema表示的文档逻辑结构中定义了

元数据之间的层次关系,可以借此自动重建文档逻

辑结构树。为方便描述这一过程,先引入章节子树

的概念。定义5

章节子树(Section

Tree,

ST)是DST

V,

C>中描述某个章节内容的子树,ST

=

Vr

,

V5t,

Cst,血〉,其中f为ST的根节点,V”

UV,

C”UC,

/%是子树的章节级别(1,2,3,…)。

章节子树有如下特点:① 章节子树的根节点在DST中的深度反映了

章节子树的级别,其前序遍历结果记录了原始文档

内容顺序;②

对于一棵章节子树,其最左孩子节点一定对

应此章节标题,而其余节点对应此章节的内容;③

任意两个章节子树互不相交:nv2

=

0,

G"C2

= 0。按照文档逻辑结构标注模型对文档元数据标

注,可得到文档标注单元的偏序集合M

={%.,”

=l,

2,

•••

,N},其中

mi

=

ta&>,

sGU,

ta&

G

TM0文档逻辑结构重建是将集合M转化为文档逻

辑结构树的过程,算法可分为三个步骤,首先明确文

档首部信息,并确定其在文档逻辑结构树中的路径;

其次,构造各个章节子树;最后,明确章节子树之间

的嵌套关系。章节标题是确定文档逻辑结构的标志性信息,

根据标题类标注单元出现的位置可以将标注结果分

解为若干部分。假设标题类标注单元集合T={m.,

i

=

r,

s,…,t},

TUM,可以将标注结果M分解为

若干子集:Mo

=

{m0,…,mr-i }

,

Mr=

{mr,

••-,m.

-j}

,

,

M,

=

{m,,

•••,

m„}

文档逻辑结构树DST

V,

C>重建算法的形式化描述如下:①

第一个子集与文档首部对应,可按序地

为每个标注单元内容在文档逻辑结构树中创建一条

唯一路径;②

子集M,

(;

=

r,

s,…,t)对应文档主体内

容,并且每个子集M,

=

{Wi,巾》}对应了一棵章

节子树ST,

V.,

C,,血>,子树的构造过程

如下:a) m为标题类标注单元,可确定章节子树的根

节点◎与级别Ip;;b)

为每个标注单元创建一个节点

s并建立连接c

=

Vr,2>。③

确定章节之间的嵌套关系:若l-u,

=

1,则建

立连接

c=Vroot,

lv,

#

1,存在

ST,,

k

且g

=

lv*十1,则建立连接c

=

,

r,>o获得文档逻辑结构树后,需要根据文档元数据

的XML

Schema描述,进一步生成符合其定义的

XML形式的文档逻辑结构标注文档。3.3文档编辑语义特征自动提取流式文档需要抽取的编辑语义特征多样复杂,

这些特征靠人工抽取是不现实的,一方面工作量巨

大;另一方面难以准确(例如,字数、关键字等)。此

外,部分特征难以通过人工方式获得,比如编辑对象

特征需要从文档底层中提取。因此实现特征向量的

自动化提取是非常有必要的。在标注的第一阶段,

在文档中添加标注元数据标签,不仅确定了整篇文

档的逻辑结构,同时也在文档底层将标注单元特征

与标注标签以批注的方式相绑定。正因如此,可通

过流式文档提供的编程接口自动抽取文档编辑语义

特征,并填充至XML形式的标注文档中。至此,流

式文档逻辑结构标注语料生成完成。4

实验与分析文档逻辑结构标注模型较为复杂,为方便标注

人员按照本文提出的三段式的半自动化标注方法来

标注文档,我们开发了相应标注插件,插件截图如图

4所示。我们随机选取30篇文档,将其分为6组,分别

使用标注工具与纯手工的标注方法对每组数据进行

标注,两种标注方法的效率与正确率对比情况如

表3所示。采取纯手工方法标注文档逻辑结构树并

在文档中提取编辑特征的过程十分烦琐•导致标注

效率过低。本文将三段式的标注方法融入半自动化56中文信息学报2019

年documentdoc

[Compatibility

Mode]

-

WordE

-

XFile

Home

[insert

| Design

|

Layout |

Referenc

|

Mailings

|

Review

|

View |

Develop*

|

CNKI

E-S

|

Q

Tell

me.

Sign

in

R

ShareContribution

Title-Fz、加

i

1

3

Z

My

Task

PaneAnnotation

Save

Front

InfoTit!e

Auto-Extract &

TransFormA4,

'

S3卄SubTitieEmailAbstract

The

abstract

sboaid

summanze

the casrsns

of

ihe

p^>er

m

shan

team,

<

150-150

wwdsKeprords:

Fast

K^twd.

Second

Keyword.

Tted

Group

Organization

ContractSponser

Volumenum

SubjectSetEditor1

First

Section*1.1

A

Subs*ction SampleCopyright

Abstract-Title

PubDateAbstract-ParaKeywordsPlease note

dut

die

fint

paragr^i

ofa

secticm

or

sabsecban

is

not

indented

first

paragraphs tiut

fbUoni a

table,

figure,

equation 或:.does

oct

have

an

indent,

eitbe

Subsequent

paragraphs,

however,

are

Heading

(Third Level).

Ooh'

two

levels

of

headings

should

be

tmmbaed.

Lower

level

he»dmg*

remain

unnumbered.

are

fonnatted

13

ran-in

headmgiKeyWords-Titie

loqicai

RoleIntroductionConclusionLabel

TitleSan^U

Heading

'Tonh The

contnbidKjn

should

ccntun

no

more

than

fourlevds

ofhodmgs.

The

following

Table

1

gives

a

summary-

ofall

hearhng

leveKAcknowledsmentsT・Me

L

Table

capnotu

shoold

be

placed

^m~e

the

tAles.倂》rtnw

level

Fam

>ige

ind

avleReferenceTide

(ceased)1"-level

hwdmdLecture

Notes1

Introduction14

poor,

boklAppendixLabel

Title12po«10

point,

boMy4evel

bcsdmg3''-fet'd

beading2.1

Prilltiag

AreaRun-in

Heading

in

Bold. Tset

follow!lOpoutt,

bold10

point,

itaticDocument Components4"-level

headmgZx7H*rr£*i«/

Hooding

Text

follon-sSect-Label

Level:Displayed

equabom

are

centered and

set

on

a

separate

lme.

Sect-Title

Level:⑴::;:;ProeramListinex+y

=sFipne

F-Label

F-Title

F-LegendTable

T-Label

T-Title

T-LeeendPage

1

of

2

392

words

Qx

English

(United

States)

歯闌

Bl80%图4标注插件截图表3

标注方法对比实验结果编辑特征提取与逻辑结构两方面进行了对比实验。表4

DSTC语料分布情况语料来源数量实验标注单纯手工标注方法半自动化标注方法序号元数量时间/min正确率/%时间/

min正确率/%0135995.

9595.274997.

69《全国文档信息处理学术会议论文集》51479&

6799.

1599.

22《第一届全国知网研讨会论文集》《北京大学学报》(医学版)《北京大学学报》(自然科学版)《北京信息科技大学学报》《北京邮电大学学报》《北京交通大学学报》476.

3993.

7794.493924569&

539&

1742694.

7231130标注插件.使得在逻辑结构重构与文档特征抽取阶

段不需要人工干预,大大提高了文档语料的标注效

率与正确率。基于机器学习的文档结构理解需要大量的训练

《现代电力》《食品科学技术学报》18379网络下载126380总计数据,我们广泛采集了多种学术期刊或会议的共计

其他1

734篇学术论文,如表4所示。并按照前文提出的

标注方法对其标注,构建了流式文档结构标注语料

库(Document

Structure

Tagging

Corpus,DSTC)

o1

734为了验证本文确立的文档逻辑结构标注体系的

4.1基于随机森林的文档章节结构识别在流式文档逻辑结构识别的研究中,文献口]对

合理性与DSTC语料库构建的有效性,基于DSTC

语料库训练文档逻辑结构识别模型,分别在语料的

比了

SVM、KNN、朴素贝叶斯与随机森林分类器, 9期刘倩等:面向机器学习的流式文档逻辑结构标注方法研究57其中随机森林分类器的识别准确率与召回率最高。

文献口]对文档章节结构进行了识别,其数据集

随机森林是一个由一组决策树分类器组成的集成分

中标注了章节、子章节与正文,并提取8种编辑特征

类器,每个决策树分类器通过投票来决定最优的分

类结果。随机森林算法一般构造过程如下。步骤1对于给定训练样本,随机可重复取样,

组成特征向量。为与文献口]进行对比,随机选取

169篇文档语料,首先按照文献[1]的方法构造数据

集1;其次按照本文提出的方法标注相应标签并自

动提取16种编辑特征,从中计算并选取信息增

益回」最大的8种特征组成特征向量,构造数据集2。

两种数据集的特征向量对比如表5所示。基于上述

形成新的子样本数据;步骤2对新的子样本数据中M个特征变量

随机抽取个特征,构造完整的决策树;步骤3重复步骤1、2,得到K个决策树,形成

两种数据集,构建随机森林分类模型,十倍交叉验证

随机森林;步骤4每个决策树投票,选出最优的分类。本文实验中随机森林算法参数为:M=

16,

的实验结果见表6。实验结果表明,由于本文标注

体系中对文档编辑特征提取得较为全面,能够更好

地反映不同类别间的差异,从而提升了随机森林分

类模型的准确率与召回率。K=

100,

m

=

[og2M

lo表5特征向量对比特征名称■TH X丁子亏数据集1数据集2FS—MIN

FSd1

M

AX

FSd

-

MlN

FSdTURE/FALSETURE/FALSEFS—FSmost2

M

AX

FSd

-

MIN

FSd句数,数值型多句项目标记X.X、第X章、(X)等首行缩进段尾标点TURE/FALSETURE/FALSETURE/FALSEBoth/Left/Right/CenterTURE/FALSE———粗体对齐方式下划线—大纲级别字数表6

实验结果对比0/1/2字数,数值型在流式文档逻辑结构标注体系中,标注了

18类

数据集2文档元数据,能够实现较细粒度的文档逻辑结构识

数据集1釵童准确率召回率F值准确率召回率F值别。同时.DSTC语料库基于本文的文档逻辑结构

一级标题7890.

9300.

6950.

7950.

9310.

9350.

933二级标题7940.

7650.

8950.

8250.

9330.

9310.

932标注模型记录了文档元数据间的顺序与层次关系,

并符合XML

Schema的约束,能够为序列标注模型

提供可靠的训练数据。长短期记忆网络模型(Long

Short-Term

Mem­正文段落3

3330.

9690.

9880.

9790.

9880.

9870.

9884.2

基于双向LSTM的文档逻辑结构识别上述实验对文档逻辑结构识别存在一些不足。

一方面,文档元数据的分类维度较低,较难满足其他

ory

,LSTM””:在传统的循环神经网络模型(Re­current

Neural

Network,

RNN)基础上重新设计了

隐藏层节点的记忆模块,能够清理学习过程中的无

用信息,并有效地利用长距离的序列信息,通过隐藏

高层次研究的需求;另一方面,随机森林算法将各个

节点来发现各个文档段落局部之间的相互关系。本

实验基于双向LSTM网络模型学习文档的特征信

息,分别从正向和逆向两个方向处理文档逻辑结构

分类标签看作相互独立的,然而文档各段落之间的

先后顺序关系也是需要机器学习与识别的重要内

容,本文尝试将文档逻辑结构识别问题视为序列标

序列,模型结构于原理于文献[23]中有详细论述,本

注问题解决。文对此不再重复说明。58中文信息学报2019

年本文实验中对特征向量采用dropout正则化操

所示。从分析实验结果可知,由于LSTM模型考虑

了流式文档逻辑结构的上下文信息,提升了随机森

林算法对文档逻辑结构识别的准确率与召回率,但

作,dropout设置为0.2;双向LSTM模型中的正向

和反向隐藏层的节点数均设置为64个.神经网络层

数为两层,学习率设置为0.

1;对于误差的更新.则

采用批处理的形式,每次由50个样本一起更新,即

LSTM模型付出更大的时间代价。综上所述,本文确立的标注体系与DSTC语料

batch设置为50个,轮回次数设置为50。在DSTC语料库中随机选取1

388篇文档作为

训练数据,其余346篇文档作为测试数据,分别使用

随机森林与I-STM模型进行实验,实验结果如表7

库.不仅能够为基于机器学习的分类模型提供训练

数据,更重要的是可将文档上下文信息融入文档逻

辑结构识别模型中,从而提高基于机器学习的文档

逻辑结构识别准确率与召回率。表7

随机森林与LSTM的实验结果对比随机森林类别论文题目LSTM数量准确率召回率0.

9880.

947F值0.

9870.

942准确率1.000召回率F值1.

0000.

9600.

9510.

9180.

983343342345630.

9850.

9360.

9580.

9460.

9880.

9700.

9021.0000.

9470.

959作者作者单位作者邮箱0.

9730.

9430.

9490.

9910.

9760.

9680.

9450.

9250.

8410.

9580.

9850.

9410.

8910.

9730.

9780.

9280.

9260.

8690.

9770.

9020.8890.

9760.

9820.

9760.

948摘要关键词3333311

5671

7070.

9790.

9720.

947一级章节标题二级章节标题0.

9560.

9130.

7840.

9400.

9760.

9690.

8680.

9840.

9830.

992三级章节标题正文段落3650.

8980.

9790.

9670.

9820.

9750.

9930.

7950.

9940.

9380.8430.

9870.

9520.

9826

7001

5160.

9860.

9390.

975图片图题表题1

3360.

9790.

9780.

9420.

9480.

9810.

9980.

9770.

9680.

5570.

9870.

9995365660.

9740.

8980.

9310.

4200.

9810.

9940.

9860.

9850.

9730.

5670.

9920.

9980.

975表格公式程序代码2

428880.

9660.

6980.

9940.

9940.

9600.

9780.

5770.

9970.

9970.

9750.

5250.

9870.

9940.

959参考文献标题参考文献条目加权平均值3173

4620.

9590.

975结构标注方法,在该方法中,实现了文档元数据的分

5结束语本文以DocBook为基础,定义了文档逻辑结构

描述方法,调研了大量电子文档内容与样式上的书

离式标注,批注形式的标注保护了原始文档内容且

便于操作;自动重建逻辑结构并自动填充特征向量,

节省了大量的人工标注工作量;最后将标注结果记

录在结构化的XML文档中,通过Schema验证,保

写特征,总结出用于文档逻辑结构识别的内容特征、

证了文档逻辑结构的正确性。实验证明,使用本文

方法构建的文档逻辑结构标注语料库,能够提高机

样式特征与编辑对象特征,建立了结构化的文档逻

辑结构标注模型。在此基础上提出半自动文档逻辑

器学习方法识别文档逻辑结构的粒度与准确率。本9期刘倩等:面向机器学习的流式文档逻辑结构标注方法研究59文的研究成果可用于其他类型与其他格式的流式文

档标注,为各类文档的排版检查、自动排版、信息抽

取与结构化检索等高层次应用打下基础。下一步的工作将考虑利用基于机器学习的文档

逻辑结构识别模型自动化地对语料进行初始标注,

以实现计算机自动标注、人工辅助校正的最终目的。

另外,本文提出的文档逻辑结构标注方法没有考虑

容错问题,如何为不规范的文档自动标注逻辑结构

是未来面临的另一项挑战。目前学术论文、毕业论

文、著作、标准和专利等文档类型的标注工作还在不

断进行中,数据集将面向社会开放,供广大同行研究

使用,共同推进文档信息处理技术的发展。参考文献[1]

李宁,梁琦,施运梅.格式信息在文档理解中的作用[J].北京信息科技大学学报(自然科学版),2012,27

(06):1-7.[2]

Kim

TY,

Kim

S,

Choi

S,

et

al.

A

machine-learning

based

approach

for

extracting

logical

structure

of

a

styled

document[J].

KSII

Transactions

on

Internet

&

Information

Systems,

2017

,

11(2)

: 1043-1056.[3]

Kan

M

Y,

Luong

M

T,

Nguyen

T

D.

Logical

struc­ture

recovery

in

scholarly

articles

with

rich

document

features.

[J].

International

Journal

of

Digital

Library

Systems,

2010,

1(4):

1-23.[4]

赵雪,侯霞.一种流式文档逻辑结构重建方法[J].北

京信息科技大学学报(自然科学版),2017,

32(5):56-

61.[5]

宋昊苏,李宁,张伟.VSM模型在文档结构识别中的

应用[J].北京信息科技大学学报(自然科学版),

2011,

26(6):66-69.[6]

彭欣,李宁.面向段落逻辑标签判断的VSM改进算法

[J].北京信息科技大学学报(自然科学版),2014,29

(06).19-24.[7]

Mirza

A

R,

Sah

M.

Automated

software

system

for

checking

the

structure

and

format

of

ACM

SIG

docu-

ments[J].

New

Review

of

Hypermedia

and

Multimedia,

2017,

23(2):

112-140.[8]

Kamola

G,

Spytkowski

M,

Paradowski

M,

et

al.

Im­age-based

logical

document

structure

recognition

[

J

Pattern

Analysis

and

Applications,

2015, 18(3):

651-

665.[9]

PaaB

G,

Konya

I.

Machine

learning

for document

structure

recognition[M].

Berlin:

Springer,2011:

221-

247.口0]张牧宇,秦兵,刘挺.中文篇章级句间语义关系体系

及标注[〕]•中文信息学报,2014,

28(2):28-36.[11]

杨锦锋,关毅,何彬,等.中文电子病历命名实体和

实体关系语料库构建[J].软件学报,2016,

27(11):

2725-2746.[12]

张春菊,张雪英,王曙,等.中文文本的事件时空信

息标注[J].中文信息学报,2016,

30(3):213-222.[13]

Huh

S.

Journal

article

tag suite

1.

0:

National

infor­mation

standards

organization

standard

of

journal

ex­tensible

markup

language[J].

Science

Editing,

2014

,

1(2):

99-104.[14]

Walsh

N,

Hamilton

R.

DocBook

5:

The

definitive

guide,

definitive

guide

series

C

M],

New

York:

O'

Reilly

Media.

Inc,

2010.[15]

Zheng

X,

Bansal

A,

Lease

M.

Bullseye:

Structured

passage

retrieval

and

document

highlighting

for

scholarly

search[C]//Proceedings

of

the

Australasian

Computer

Science

Week

Multiconference.

ACM,

2017;

32.[16]

Hofmann

K,Tsagkias

M,

Meij

E,

et

al.

The

impact

of

document

structure

on

keyphrase

extraction[CJ//

Proceedings

of

the

18th

ACM

Conference

on

Informa­tion

and

Knowledge

Management.

ACM,

2009:1725-

172&[17]

侯修洲,黄延红.基于VBA的Word文档XML结构

化标记方法[J]・编辑学报,2017,29(05):471-474.口8]廖述梅,徐升华,陶皖.带模板的结构化HTML文

档深度标注框架[J].清华大学学报(自然科学版),

2006,

46(sl):936-941.口9]何婷婷.语料库研究[D].武汉:华中师范大学博士

学位论文,2003.[20]

Pustejovsky

J,

Stubbs

A.

Natural

language

annota­tion

for

machine

learning:

A

guide

to

corpus-building

for

applications

E

M].

New

York:

O'

Reilly

Media,

Inc.

,

2012.[21]

Kent

J

T.

Information

gain

and

a

general

measure

of-

correlation[J].

Biometrika,

1983,

70(

1):

163-173.[22]

Hochreiter

S,

Schmidhuber

J.

Long

short-term

mem­ory

C

J].

Neural

Computation,

1997,

9

( 8

)

1735-

1780.[23]

杜舒静•徐凡,王明文.实体驱动的双向LSTM篇章

连贯性建模[J].中文信息学报,2017,31(6):67-74.(下转第78页)782017:

771-779.中文信息学报2019

年semantic

network

based

approach

to

compute

term

similarity

[J

].

IEEE

Transactions

on

Knowledge

&

Data

Engineering,

2015,27(

10) :

2604-2617.[11]

JiaweiHan,

MichelineKamber,

JianPei,等.数据挖掘:

概念与技术北京:机械工业出版社,2012.[12]

Pasquier

N,

Bastide

Taouil

R,

et

al.

Efficient

min­[15]

Li

K,

Huang

Z,

Cheng

Y

C,et

al.

A

maximal

figure-

ing

of

association

rules

using

closed

itemset

lattices

[J].

Information

Systems,

1999,24(

1):

25-46.[13]

《物种起源》数据源[EE/OL].

[2018-12-17].

ht­of-merit

learning

approach

to

maximizing

mean

aver­age

precision

w让h

deep

neural

network

based

classifi-

ers[C]//Proceedings

of

the

2014

IEEE

International

Conference

on

Acoustics,

Speech

and

Signal

Process­tp://vdisk.

weibo.

com/s/uheNHblstTh6u.[14]

Li

P,

Wang

H

,

Zhu

K

Q,

et

al.

A

large

probabilistic

马慧芳(1981-),博士,教授,主要研究领域为机

器学习与文本挖掘。ing.

IEEE,2014

:

4503-4507.王双(1995—),硕士研究生,主要研究领域为自

然语言处理。E-mail:

mahuifang@yeah.

net

E-mail:

1817349368@qq.

com,." 李苗( 1997-),硕士研究生,主要研究领域为自然语言处理。E-mail:

1607518663@(上接第59页)a>

<■

刘倩(1993-),通信作者,硕士研究生,主要研究

李宁(1964

),博士

•教授,主要研究领域为文档

信息处理、信息技术标准化。领域为文档信息处理。E-mail:

ningli.

ok@163.

comE-mail:

lql99309@

126.

com田英爱(1975-),博士研究生,副教授,主要研究

眦域为丈档L'i息处理«*

E-mail;

tianyingai@

发布者:admin,转转请注明出处:http://www.yc00.com/news/1690216827a316286.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信