基于多源知识图谱融合的智能导诊算法

基于多源知识图谱融合的智能导诊算法


2024年4月13日发(作者:)

35

卷第

1

中文信息学报

2021

1

JOURNAL

OF

CHINESE

INFORMATION

PROCESSING

Vol.

35,

No.

1

Jan.,

2021

文章编号

1003-0077(2021)01-0125-10

基于多源知识图谱融合的智能导诊算法

刘道文

I,

阮彤X张晨童-邱家辉

,翟洁

何萍

2,

葛小玲彳

(

1.

华东理工大学信息科学与工程学院

上海

200237

2.

上海申康医院发展中心

医联中心

上海

200120

3.

复旦大学附属儿科医院

信息中心

上海

201102)

摘要

患者网上挂号时常有挂错科室的现象•因此需要科室推荐应用•功能类似线下医院的护士台预诊

然而

由于医院科室设置不尽相同

患者各项特征和科室之间的关系也不明确

,给自动科室推荐带来挑战

因此

该文首

先定义了带权重的知识图谱•用于描述症状

疾病以及性别等特征与科室和医院之间复杂的量化关系

其次

利用

区域信息平台的电子健康档案

(electronic

health

records,EHR)

数据•获取多家医院的疾病一科室信息

在融合国

际疾病编码(

international

classification

of

diseases*

ICD)

医疗网站中的症状

疾病数据后

用搜索引擎结果补充权

重关系•形成可用的知识图谱

图谱目前包含了

38

家医院

6

110

个科室

6

220

个症状

,60

736

个症状相关疾病关

当患者输入基于自然语言描述的症状与疾病后•通过该文设计的预滤噪的

BERT

实体识别模型与部位制导的

医疗实体归一化算法•识别并归一化患者主诉中的症状词

、疾病词和部位词

最后

基于该文设计的基于权重的联

合症状预测疾病概率算法(

weight-based

disease

prediction

algorithm

based

on

multiple

symptoms

.

WBDPMS)

联合

多个症状预测可能的相关疾病•以此来实现通过主诉推荐最合适的医院及科室

实验结果表明

准确率达到

0.88

关键词

知识图谱

智能导诊

实体识别

实体对齐

实体归一化

中图分类号

TP391

文献标识码

A

Clinical

Departments

Recommendation

by

Fusing

Knowledge

Graphs

from

Electronic

Healthcare

Records

and

Medical

Websites

LIU

Daowen

1

,

RUAN

Tong

1

,

ZHANG

Chentong

1

,

QIU

Jiahui

1

,

ZHAI

Jie

1

,

HE

Ping

2

,

GE

Xiaoling

1

(

1.

School

of

Information

Science

and

Engineering

*

East

China

University

of

Science

and

Technology,

Shanghai

200237,

China

2.

Shanghai

Hospital

Development

Center*

Shanghai

200120

»China;

3.

In

formation

Centre*

Children

s

Hospital

of

Fudan

Universit

y

Shanghai

201102

»China)

Abstract

:

The

clinical

department

recommendation

is

a

challenging

task

since

the

settings

of

department

are

different

among

hospitals.

Meanwhile

the

relationships

between

symptoms

and

departments

are

also

unclear.

In

this

paper,

weighted

knowledge

graph

is

defined

and

constructed

from

local

EHR

data,

ICD

(International

Classification

of

Dis

­

eases)

and

online

medical

websites

to

establish

the

quantitative

relationship

among

symptoms

»

diseases

and

depart

­

ments.

The

constructed

knowledge

graph

contains

38

hospitals*

6

110

departments*

6

220

symptoms

and

60

736

symptoms-related

diseases.

The

proposed

recommendation

system

recognizes

the

symptoms

words

»

disease

words

and

body

part

words

in

patients*

chief

complaint

by

a

Bert

entity

recognition

model.

Finallyw

a

weight-based

disease

prediction

algorithm

based

on

multiple

symptoms

(

WBDPMS)

is

designed

to

identify

the

candidate

diseases

and

thus

recommend

the

most

suitable

hospitals

and

departments.

The

experimental

results

show

that

the

accuracy

reaches

0.8

&

Keywords

:

knowledge

graph;

intelligent

guidance

entity

recognition

entity

alignment;

entity

normalization

收稿日期:

2020-01-11

定稿日期:

2020-02-14

基金项目

:国家科技重大专项项目

(

2019ZX09201004)

基于上海区域卫生信息平台的复旦儿科医联体互联网医院项目

(201701013)

126

中文信息学报

2021

0

引言

网上预约挂号系统由于省去了患者在医院排队

挂号的时间

,受到了患者的欢迎

然而.大型三甲医

院通常有几十个科室

大多数患者并不了解临床科

室的分工,

而只能简单描述自己的症状

线下挂号

时.患者通常通过医院导医台向护士叙述症状.护士

推荐合适的科室

但是

目前线上缺乏这样的服务

患者只能通过网络搜索获得相关信息

但是由于症

状和科室缺乏明确的对应关系

,同时各医院科室设

置不同,再加上医院提供信息不完整

医疗广告又充

斥互联网,

使得使用搜索的患者最终无所适从

构建一个智能科室推荐系统

将合适的科室推荐

给需要的患者,

可以解决患者网上挂号遇到的实际

问题

减少患者挂错号的情况。

其中智能导诊服务

还存在以下问题

(1)

患者主诉中症状描述的多样性问题

需要

从患者对病情的不规范文本描述中.有效识别症状

信息或患者预判的疾病信息,

并归一化到知识图谱

的标准实体上

(2)

病人各类特征与就诊科室之间的关系缺乏

良好和可扩充的知识表示方式

首先

症状和疾病

疾病和科室是多对多的关系

部分科室不一定和症

状相关

而是和部位

年龄与性别等紧密关联

精准的导诊算法依赖于这些类之间的量化关系

其次

各家医院的科室设置不尽相同.意味着相同的

疾病可能会到不同医院的不同科室

分析上海区域

平台数据发现.

甲状腺结节

在瑞金医院的

普通外

挂号最多

但在岳阳医院的挂号却是

内分泌科

最多

用何种知识表示模型描述上述知识

是一个

难点问题

目前的导诊推荐系统大多采用向量空间

计算疾病相似度的方法然而

这些方法没有体

现医学的强知识型和可解释性

因此

采用其他方

,如知识图谱是一个可选方案

虽然目前有诸多

发布的医疗知识图谱金门

但从本文应用角度

缺乏

病人特征和科室之间关系的模式描述

从知识表示

角度

未见量化关系的描述

从图谱数据角度

缺乏

知识数据与真实医疗数据的融合

(

3)

图谱数据来源的选择与图谱融合方法问

知识图谱可以通过几种方式构建

一是人工构

二是通过医书或是来源于医书的互联网网站

三是通过区域平台电子健康档案

(

electronic

health

records,EHR)

自动获取

四是结合第二种和第三种

方案

对两种数据来源进行融合

第一种方案工作

量太大

第二种方案在书中不存在真实科室数据

三种方案需要多家医院电子病历数据或是区域卫生

平台数据

症状数据通常又在文本中.不但采集工作

量大

,而且数据清洗和处理复杂度更高

为此.本文

选择第四种方案

该方案的复杂度在于需要进行多

源数据融合,

包括不同来源实体的对齐与上下位关

系的识别等

由于来自网络的症状-疾病图谱的疾

病术语数据较少

而来自真实数据的疾病-科室图谱

存在疾病术语描述不规范问题

因此.知识数据和真

实数据的直接融合匹配率并不高

为此

本文使用基

于国际疾病分类

(

international

classification

of

dis

­

eases.

ICD)

的术语体系作为桥梁融合两个图谱

针对智能导诊服务中的问题

本文提出了一种

基于知识图谱的智能导诊方法

本方法的贡献点

如下

(

1

)

设计了面向导诊的带权重的医疗图谱模

可以量化地定义科室与症状

疾病

性别和部位

之间的关联关系与概率关系

(2)

以国际疾病分类

ICD

为基础.通过融合互

联网知识数据与区域大规模

EHR

真实数据

构建

了量化的症状一疾病一科室一医院图谱

实验证

明.通过

1CD

进行融合

比直接将互联网知识数据

与区域大规模

EHR

真实数据进行融合

最终的科

室推荐准确率提升了

10%

左右

(3)

针对网络问诊文本不规范情况.提出了预

滤噪的

BERT

实体识别模型

比经典的

BERT

+

CRF

模型提高了

5%

的召回率

3%

Fi

针对

医学实体归一化问题,

提出了部位制导的医疗实体

归一化算法

对比经典的

BERT

+

CRF

模型

提升

T

3%

的准确率

30%

的召回率

17%

F,

(4)

提出了基于权重的联合症状预测疾病概率

(

weight-based

disease

prediction

algorithm

based

on

multiple

symptoms,

WBDPMS)

算法

实现了

症状的疾病预测与基于患者信息的精准的科室推

实验证明

该算法比一般的加权求和算法的科

室预测准确率提升了

10%

以上

上海申康医联平台使上海市三甲医院的数据信

息得以互联互通

实现了网上预约挂号服务.本文的

方法在上海申康医联平台

2018

1

月上线以来

止到

2019

1

月,

一年时间共计

63

795

次访问

得了良好的反馈

1

刘道文等

基于多源知识图谱融合的智能导诊算法

127

1

相关工作

智能导诊的研究目前大多采用的方法是将传统

数据驱动的推荐算法适配于医疗领域

马铉等•提

出了一种面向智能导诊的个性化推荐算法

以辅助

诊疗的结果为基础

和基于协同过滤的评分方式有

机结合

其算法能根据患者的症状表现与地理位置

等个人信息

,为用户提供个性化的推荐结果

璐⑵基于向量空间模型对权重计算进行了改进

核心思想在于将患者输入的症状向量化

与疾病症

状集中的疾病向量进行相似度计算

进而预测患者

疾病

徐奕枫等⑶在梁璐的基础上

提出了重心后

移的概念.他将症状中的每个字赋予权重

后面字权

重大于前面字

。医学领域的特点是强知识性与解释

病人特征和推荐的科室之间有着直接的因果关

与传统的基于机器学习的电影推荐和书本推荐

完全不同

为此

本文提出了基于知识图谱的智能

导诊算法

以适应医学领域的特点与要求

准确且完善的面向智能导诊的知识图谱是本文

研究的数据基础

在国内

清华大学和上海交通大

学利用网络百科知识

构建大规模的通用知识图谱.

⑷和

XLORE

在医疗领域

国外构

建了临床医疗术语集

SNOMED-CT

这样的通用的

术语分类系统

面向药物的命名系统

RxNorm.

针对

观测指标的编码系统

LOINC,

以及被广泛应用的疾

病分类系统

ICD

等医疗术语体系

在国内

,于彤

等构建了

TCMKS

中医药知识图谱及其服务平

本文采用自顶向下的图谱构建方式

并在图谱

模式层扩充了权重

图谱数据层采用了知识数据与

业务数据相融合的方式

智能导诊前置工作为患者主诉处理

首先要从

患者主诉中识别症状词等实体信息

Qiu

z

利用

残差神经网络获取上下文信息

然后通过条件随机

场捕获相邻标签之间的依赖关系

该方法在疾病

状等医疗实体的识别任务上取得了比

RNN

算法更

好的结果

Wang

等⑼将医学字典信息输入到

Bi-

LSTM

+

CRF

模型中.能更好地处理字典中存在但

数据中很少出现的实体

Gong

讪使用谷歌提出

BERT

模型进行实体识别

并且在字符嵌入中加

入了汉语词根信息.可以更好地利用语义进行实体

识别

然而

上述模型不能很好地处理主诉噪声多、

描述不规范的问题.因此本文提岀了预滤噪的

BERT

实体识别方法,

该方法通过对主诉文本进行

预处理和后处理去除部分噪声

提升医学实体输岀

的规范性

为了将实体归一化到知识图谱的节点上

Wang

M

提出的

Bi-GRU-CapsNet

模型

更好地解决了

词汇量不足

(

out

of

vocabulary,

()()V

)

的问题

Zhang

也的方法使用多种字符串相似性的结果

作为输入,

对比了朴素贝叶斯

随机森林

逻辑回归

Stacking

等模型

对实体和节点进行归一化

。谷

歌提出的

BERT

模型也可用在该实体归一化

任务上

输入为待实体归一化的实体和知识图谱中

的实体.输出为知识图谱实体中的匹配分数。

然而

部位对医疗实体的归一化有着重要的影响.本文提

出的部位制导的医疗实体归一化算法

提高了实体

归一化的准确性

2

整体框架

本文的整体框架如图

1

所示。

分为两部分

半部分是知识图谱构建过程,

右半部分是基于知识

图谱的智能导诊算法

知识图谱构建中

融合了医疗百科网站

区域卫

生平台

EHR

数据

JCD-10

ICD-11

以及搜索引

擎的联合搜索概率等多源数据

具体过程如下

①基于医疗百科网站信息.构建症状一疾病知识图

对于任意两个症状和疾病.利用搜索引擎中联

合搜索的条目数计算症状和疾病之间的权重

②基

于上海区域卫生平台提供的

38

家三甲医院半年来

科室治疗疾病的统计数据

构建疾病一科室一医院

图谱

利用就诊次数计算疾病和科室之间的权重

③利用

ICD

的疾病层次关系融合上述两个图谱

,以

补全疾病一科室对应关系

真实数据中并非所有疾

病名词都存在对应的科室

但通过同义词或上下位

关系可以找到含有对应科室的疾病节点

因此.带

有同义词与上下位关系的疾病图谱可以弥补真实数

据中疾病一科室关系的不足

由于医疗百科网站和

区域卫生平台

EHR

数据中并没有疾病同义词及上

下位关系

因此本文利用国际疾病分类

ICD

11

版本和

10

版本.形成带层次的疾病图谱.进而融合

症状一疾病

、疾病一科室一医院两个知识图谱

在智能导诊过程中

患者输入中文主诉文本

别和年龄段

首先利用本文提出的预滤噪的

BERT

实体识别模型对主诉文本进行实体识别.获得患者

主诉中的症状实体和疾病实体

其次

再利用部位

制导的医疗实体归一化算法将这些实体归一化到图

128

中文信息学报

2021

知识图谱构建

数据源

:

(1)

医疗百

科网站

J

](2)

区域卫生

'

'

(

3)ICD

国际]

r

联合搜索

j

:平觴

R

::

疾病分类

:概率

:時

面向智能导诊的知识图谱

*

i

.

知识图

谱融合

1

基于多源知识图谱融合的智能导诊方法整体框架

谱中的相应节点

最后

通过本文提出的基于权重

的联合症状预测疾病概率算法

(WBDPMS)

在图谱

上计算患者可能患有的疾病及其权重

进而通过权

是关系

E

、上的权重

E,

分为两种

一种是类节点之间的关系

另一

种是属性关系

前者称为对象属性

后者称为数据

重融合算法推荐最合适的科室及医院

属性

对象属性有五个

分别存在于疾病和疾病

状和疾病

疾病和科室

科室和医院之间

疾病和疾

3

知识图谱构建

3.1

面向导诊的知识图谱模式图定义

2

展示了面向导诊的知识图谱

上半部分是

模式图

下半部分是数据图

模式图由三元组

G

=

N

E

WQ

组成

N,

病节点之间存在上下位和同义词关系

数据属性有

两个

存在于疾病节点和科室节点上

分别为性别和

年龄

由于部分疾病和科室与性别和年龄有关

月经不调

是女性疾病

老年高血压

是老人

特有的疾病

妇科

儿科

分别面向女性和儿

童两个群体。

因此.图谱在疾病和科室上增加了

秋'年龄

两个属性

用于进一度提升导诊算法的

知识图谱类别节点

包含了

4

个类节点

分别是症

疾病

科室和医院

E,

是节点

N

之间的关系

模式图

GRNy

E

s

,

W$)

精度

年龄|

疾病名称

疾病名称

关系

属性

W

~|

|

性别

f

性别|

实像

医院名称

科室名称

I

疾届相关科室

症送

g

症状名称

y

数据图

1

I

'

病症上下位关系

医院

1

Weight:0.37

急性上呼

吸道感染

Weight:0.65

发烧

医院

2

Weight:0.63

:

将症同义关系

Weight:

73

--------

咳嗽

.

Weight:0.89

Weight:0.27

2

面向导诊的知识图谱模式图及数据图

1

刘道文等

基于多源知识图谱融合的智能导诊算法

129

W.

是附属在

E

上的属性存在于症状和

疾病

疾病和科室上

前者代表症状和疾病关联的概

后考代表疾病和挂号科室关联的概率

由于不

同症状在不同疾病上的贡献度不同

可能引起的疾

病也不同.如果症状和疾病之间没有权重关系的话

会导致如

发烧

这个症状预测出来的

感冒

儿腹泻

的权重相同

此外.由于区域卫生平台

EHR

数据的真实性.疾病在不同医院的不同科室之

间的权威性都不同.通过

疾病一科室

”关系之间的

权重能让患者更好地选择有权威性的科室及医院

本文在实验过程中

针对权重设置对推荐结果的准

确性进行了对比

数据图是模式图的实例

以图

2

面向导诊的知

识图谱模式图及数据图的数据为例.描述的是症状

发烧

链接的疾病为

急性上呼吸道感染

.其概率

0.65

症状

咳嗽

链接的疾病为

急性上呼吸道

感染

哮喘

概率分别为

0.73

0.27.

说明

更有可能是由

急性上呼吸道感染

导致的

急性上呼吸道感染

存在上位词

上呼吸道感

和同义词

感冒

急性上呼吸道感染

0.37

的概率会去传染科治疗

,0.63

的概率去呼吸内科治

哮喘

0.89

的概率去呼吸内科治疗

医院

1

有传染科和呼吸内科.医院

2

有呼吸内科

3.2

面向导诊的知识图谱构建过程

首先

选取

39

健康网为知识抽取源站

从疾病

列表页获取所有疾病列表

通过疾病名称进入详情

页.抽取疾病别名

发病部位和典型症状信息.构建

疾病一症状

信息

由此得到的症状以及症状疾

病关系可能不全.进一步根据症状列表补全症状.并

由症状页链向疾病的关系.对

疾病一症状

”信息进

行补充

其次

补充单个症状与疾病之间的概率关系

本文以搜索引擎中症状一疾病对出现的频次计算相

关程度

在搜索引擎上对

症状一疾病

pair<

>

进行联合搜索.获取

pair

在互联网上的出现次数

作为分子

记为

count(

pair

,.j

)

,S<,=

1

,s

.

s,

}

为疾病

d

所链接的所有症状

因此症状和疾病的权

重计算如式

(

1)

所示

Weight

s-d

count(pair

2_j

--------------

count

(pair

)

s-d

)

再者.构造疾病

医院图谱

。基于区域

卫生平台

EHR

数据.抽取其中的疾病及其挂号的

科室信息

,包括在该科室挂号的次数和科室所在的

医院

用以构建疾病一科室一医院图谱

较百科知

识型数据而言

使用区域卫生平台数据真实数据构

建疾病一科室一医院关系的优点如下

(

1

)

体现医院的科室设置不同.例如

呼吸内

在不同医院的名称不同.有

呼吸科门诊

呼吸

“门诊呼吸科

等.而看起来相似的科室

具体面

向的疾病也有不同

因此.本文的知识图谱是从疾

病链接到不同医院的不同科室

并没有对科室做归

一化处理

(2)

疾病挂号次数体现了某疾病在该科室下的

治疗经验

可以作为

疾病一科室

关系的权重.能为

推荐带来更高的精准度

(3)

医院特定疾病的挂号次数体现了医院治疗

该疾病的经验

本文获取的区域卫生平台

EHR

数据共计

1

780

449

条.通过对数据中的异常值记录进行清洗

后.得到有效数据

281

488

形成了

疾病…

关系

281

488

科室一医院

关系

6

110

最后

,将两个图谱进行融合

EHR

数据中虽然

疾病名称众多.但是疾病名称并不规范和全面.因此

疾病一科室关系不完整.会导致有些疾病没有科室

可挂的情况。

此时可以通过疾病的同义关系或上下

位关系找到挂号科室

因此.需要具有同义词与上

下位关系的疾病图谱,弥补真实数据中疾病一科室

关系的不足

为此

本文利用

ICD

国际疾病分类.将

ICI3

别和症状-疾病图谱以及疾病一科室-医院图谱融

合.构建完整的症状一疾病一科室一医院图谱

文采用

Wang

等⑴

的方法进行上下位及同义词识

别.进行图谱的融合

ICD10

中共有

18

050

个疾

病节点

,ICD-11

中共有

3

542

个疾病节点

通过

EHR

构建的图谱共有

20

756

个疾病节点.通过同

义词和上下位识别.与

ICD

树关联上

9

408

个疾病

节点

。其中上下位关系

57

423

同义词关系

2

927

最终生成的知识图谱包含症状节点

6

220

疾病节点

30

164

个.科室节点

6

110

个.医院节点

38

个,

症状

一-

疾病关系

60

736

疾病上下位关系

57

423

条.疾病同义词关系

2

927

疾病-科室关

281

488

科室

医院关系

6

110

4

智能导诊算法

4.1

算法流程与实现

如图

3

所示

智能导诊算法分为四部分

首先

130

中文信息学报

2021

主诉

性别

年龄

I

I

-----------------------------

需帀丁成可-

!

I

----------

L

______

预滤噪的

BERT

I

实体识别模型

:症状集

疾病集

部位集

:头有点痛

咸冒

:发烧

心'目

部位制导的医疗

实体归一化算法

I

:症状节点

疾病节点

头痛

(id=50

607)

发烧

(id=50

613)

感冒

(id=36

002)

基于权重的联合症状

预测疾病概率算法

预测疾病集

感冒

0.583

及其权重

小儿感冒

0.214

流感

0.203

融合权重算法

推荐患者去的

医院

1

-

呼吸内科

-43%

科室及其权重

医院

2

-呼吸科

-32%

医院

3

-内科

-25%

3

智能导诊算法流程

识别患者主诉中的实体词

包括症状

疾病和部位

算法结构如图

4

所示

首先将主诉输入基于词典特

然后对实体词向知识图谱进行归一化

接着通过

征的

Bi-LSTM

+

CRF

模型⑵

其中部位词典采用

WBDPMS

算法

基于图谱中的关系和权重.计算患

人体解剖学名词

第二版

中的部位词

3

063

);

者可能患有的疾病和概率

最后通过融合权重算

症状词典采用文献

2

的症状词典

762

和本文

结合

疾病一科室

关系上的权重

给出最合适的

知识图谱症状节点名称(

6

220

进行融合

得到最

医院和科室

终的症状词典

6

829

我们将患者主诉的每

4.2

个字进行向量化,

组成模型的输入“

并且采用位

患者主诉实体识别与实体归一化

置相关实体特征

position-dependent

entity

type

由于患者主诉不规范.存在大量的与诊疗无关

feature,

PDET

type

构建输入

d,

e,

d,

分别经

的语句和字词

。无关语句主要表现在存在很多与病

Bi-LSTM

+

CRF

将输出进行合并.再通过

情描述无关的语句上.例如

医生您好

请问是什

CRF

层输出主诉中的症状词和部位词

CRF

么原因

等。

同时.由于本文对症状时间不做处理

输岀的结果里同一子句中的部位词和症状词中间的

因此

病人描述的时间语句在该系统中视为无关语

无关词语删除

并且将没有出现过任何实体的子句

例如

怀孕已经

28

周了

每次一到冬天的时

作为无关语句删除

获得滤噪后的主诉

反反复复发作

此外•由于患者对症状描述

CLS

滤噪后的主诉

SEP

作为

BERT

的输入

存在形容词或副词

例如

头有点痛

膝盖下面隐

模型输出主诉中的症状实体

隐作痛

在对

1

640

条训练数据进行子句分割

本文将实体识别出来的症状实体集

S

complain

=

一共得到

10

517

条子句

平均每个患者主诉包含

6

<5,

,、

"

•••

$,

•••

归一化到知识图谱的症状节点集

个子句

但是其中只有

3

099

个子句包含本文需要

N,

=

1

,

2

丿

,

其中

N

>

G

Na

利用部位

的症状信息

占比为

29.5%

因此

通过对主诉的后

词典对

S

con

,

lllai

中的部位进行抽取

,得到部位词

B

o

处理

精炼出更加有效的主诉.能有效提高准确率

$,

和巧部位词不一致时

则判断

$,

不能归一化

本文提出了预滤噪的

BERT

实体识别模型

到心上

s,

没有包含部位词

包含部位

A

bert

entity

recognition

model

for

pre-filtered

noise

o

例如

胀痛

肌肉胀痛

”,则将部位词

B

$,

1

刘道文等

基于多源知识图谱融合的智能导诊算法

131

B-Stt

I-

症状

1-«

O

O

------

■舎舎金

■舍會

BERT

输入

腹部痛

小腹疼痛小便有尿血怎么回事

后处理

O

O

0

20

90

0

0

,

0

B0

O

-O

段O

O间

0

O

0

O

0

0

O

0

0

O

O

o

,

0

»B-gf

位词部

1-

部位词总

0

O

O

0

O

B-

症状词

0

所。

0

0

在O

0

O

—O

O

O

O

,

0

B-

位词腕

1-

部位词有

0

0

B-

症状词搞

I-

症状词小O

便

O

O

尿O

0

0

O

0

0

?

0

0

0

O

O

O

0

O

0

O

0

O

?

O

输出

CRF

concat

LSTM

LSTM

输入

位靈相关实体类型特征]

字向量

j

1

我今年

29

岁了

最近一段时间总呈感觉身体有点不正常

腹部总是隐隐作痛

所以想

在这咨询一下医生

小腹有些疼痛小便有尿血怎么回事

吃点什么药可以缓解疼痛

4

预滤噪的

BERT

实体识别模型

进行拼接.进而判断是否能归一化到心上

同理

用相同的方法从患者主诉中获取疾病实体集

树)、

bagging

(

分类器为决策树)

梯度下降树

(GBDT)

随机森林(

random

forest

)

、支持向量机

D„>g

=

{右,厶

,…

d,

,•••},

称之为患者主诉中预

判疾病集

(

support

vector

machine

)

辑回归

(

logistics

regression)

多层感知器

(

multilayer

perceptron

)

方法

并且将这些算法通过排列组合进行融合.选择

为了判断

s,

是否能归一化到巧上.本文采用

了多个维度的字符串相似性算法

包括最长公共子

其中的一组算法组合以达到最好的效果

串的长度占比

编辑距离

Jaccard

距离

余弦相似

Hamming

距离和

Levenshtein

距离

以此作为

4.3

智能导诊算法的实现

首先

我们通过

S

complain

{

S

]

S

2

,

*

*

*

9

S

,

}

模型输入

通过对比朴素贝叶斯

(Naive

Bayes

)

、最

近邻

(

KNN

)

AdaBoost

(弱分类器为

CART

决策

算患者可能患有的疾病及其权重

症状

£

i

C

S

complain

132

中文信息学报

2021

相关的疾病集记为

D0

)

=

/

,厶

/

以疾病

d

,

eo

(

5

z

)

为例

令与其相关的症状构成的

症状集记为

S

(/)

=

・・・•

,

几且令

I

D(.S,

)

I

表示

0(5,

)

中的疾病总数

类似的•将症状

s

complain

中所有症状对应的疾病集构成的集合记

D(S

g

)

=

S

S($,)

•其疾病总数记为

si

Scomplain

I

D(S

bw

)

通过改进的

WBDPMS

算法计算患

者可能患有疾病

/

的权重

为方便起见.下文将相

似度简记为

W(d,),

如式

(

2)

所示

w

(

d,

)

=

2

少竺―

"

■'«

W

S

complain

Weight<5

r

d

}

>

S

r

€S(d

丿

)

10g2

"

|D(S

|DG,

complain

)|+1

)

|

(2)

其中

Weight

d,

表示某一症状

5.

es

和相应疾病

d,

€D(s,

)

关联岀现的概

S

Weights

表示该疾病

d,

和所有

$«■

W

S(dj

)

对应症状逐一关联出现概率之和

通过式

(

2)

得出了基于患者主诉中的症状预测

的疾病集以及其对应的概率

W(d,

),W(d,

)

的值越

表示症状集

S

complai

与疾病/的关联度越大

其次

我们通过

5

D

(

s,

)

中的疾病权重

进行更新.将疾病集和患者预判的疾病进行疾病权

重融合

方法如下

(

1

)

D

cotnpla

,„

中疾病的

d,

D(.s,)

则增加

查询项中该疾病的权重

计算方法如下

W(d,

)

为患者预判疾病在疾病集中对应的

权重值

为患者预判疾病在疾病集中按权重排序

得到的名次。

患者预判的疾病权重如式

(

3

)

所示

W'(d,)

=W(d,

)

X

log,",

+

1)

(3)

(

2)

D

con

,

plai

中疾病的

d,

不在

D(s,)

本文

考虑了该疾病对导诊结果的影响.将患者预判疾病

加入疾病集.并取所有疾病权重的平均值作为该预

判疾病的权重

如式

(

4)

所示

W

v

(cJ,)

=

W(d,)

(4)

n

最后•我们通过

D(

»)

=

cl

2

,

cl

)

其权重

W(d,

)

计算患者应该去的科室及其权重

由于

1CD

疾病丰富

区域卫生平台数据中的疾病不

能完全覆盖所有

ICD

疾病

因此会导致预测出的疾

病不能够直接连接到科室

本文通过以下规则获取

疾病

d,

所连接的科室节点

①若/可以直接通过

疾病-科室

获取科室及其权重

则直接返回该疾

病的科室节点

n,

E

N

d

及其权重

Weight

6

;

②若

d,

找不到连接的科室

则先寻找其子孙节点

获取所有子孙节点的科室关系.并取其平均值作为

权重

Weight,

进行返回

③若

d,

所有子孙节点均没

疾病相关科室

关系相连

则回溯其祖先节点.直

到找到一个祖先节点

nh

疾病一科室

关系

进行返回.并返回其权重

Weight,

ew,

/o

则患者应

该去的科室权重计算如式

(

5)

所示

Score

=

(

W(d,

)

X

Weight

丿)

(5)

dj

e

>

综上

本文得出了一组带有权重的科室列表

Departments

=

Department,

:

Scorei

,

Depart

­

ment

:

Score,,

对科室列表中与患者性别

年龄段

无关的科室去除

最后,

Score,,

进行排序.从大

到小输出推荐科室结果

对概率较低的科室不予

推荐

5

实验结果与分析

5.1

实验数据

为了训练实体识别算法

本文从医疗问询网站

抽取了

1

640

条问诊主诉数据进行训练

该数据集

男性患者

804

例.女性患者

836

普通成人

1

181

儿童

376

老年

83

人工标注其中的

症状和疾病实体作为实体识别算法的训练和测试

并且将标注出的实体手工归一化到知识图谱的节点

共标注了

2

435

条实体归一化数据

以构建实体

归一化模型的训练集和测试集

此外

为了实现真实科室情况下的算法评估,

文随机采样了医疗网站中患者问询的

200

条数据作

为导诊算法的测试集

其中

普通成人

儿童

老人

的数据比例为

171

:

15

:

14

通用疾病

男性疾病

女性疾病比为

135

:

14

:

51

对于这批数据推荐科

室的标注.由两位临床医生进行科室标注.每条数据

标注三个以内最适合的科室

5.2

实体识别及实体归一化联合算法结果

为了进行患者主诉的症状词和疾病词的抽取

本文基于词典特征的

Bi-LSTM

+

CRF

残差膨胀神

经网络

XLNET

+

CRF

BERT+CRF

进行患者

主诉处理

实体识别结果如表

1

所示

由表

1

结果可得.基于词典特征的

B1-LSTM

+

CRF

取得了

0.74

BERT

+

CRF

模型

值取得了

0.83

的好成绩

本文的方法将

F,

值提升

1

刘道文等

基于多源知识图谱融合的智能导诊算法

133

1

实体识别结果

Precision

Recall

Fi

基于词典特征的

Bi-LSTM

+

CRF

0.730.760.74

残差膨胀神经网络

0.62

0.33

0.43

XLNET-FCRF

0.52

0.560.54

BERT

+

CRF

0.81

0.85

0.83

本文方法

0.82

0.900.86

到了

0.86,

取得了最好的结果

。实验表明

针对图

4

的例子

我今年

29

岁了

最近一段时间总是感觉身

体有点不正常

腹部总是隐隐作痛,

所以想在这咨询

一下医生

小腹有些疼痛小便有尿血怎么回事

点什么药可以缓解疼痛

用后处理的主诉作为输

BERT

输出症状词为

“腹部痛

尿血

”。

如果直

接使用

BERT

进行实体识别操作

该例子将会输出

不正常

疼痛

尿血

其中

不正常

疼痛

能体现具体的症状信息

因此将本文提出的实体识

别算法作为后续实体归一化和导诊算法的前置

工作

实体识别后需要将实体与知识图谱中的节点进

行归一化.本文采用了部位制导的医疗实体归一化

算法进行实体与节点的归一化

同时对比

BERT,

元字符串相似度算法

(Cos-similarity)

和上下位及同

义词识别算法进行实体归一化

实体归一化结果如

2

所示

2

实体归一化结果

Precision

Recall

Fi

上下位及同义词识别算法

0.710.650.68

Cos_similarity

0.850.550.67

BERT

0.89

0.68

0.77

本文方法

0.92

0.98

0.94

由表

2

结果可知

本文提出的部位制导的医疗

实体归一化算法取得了最优的成绩

通过对数据的

分析

53.6%

的数据

s,

n,

都不包含部位词

39.6%

的数据

s,

和"

都包含部位词.其他的

6.8%

的数据中

s,

包含部位词而巧不包含部位词

53.6%

的数据上

BERT

算法取得了最好的效果

本文方法在

39.

6%

6.8%

的数据上针对本文做了

处理

取得了比其他算法更好的结果

结合上述两

个方面的算法

本文将实体识别最优的前三个算法

和实体归一化最优的前两个算法进行排列组合

别通过本文

WBDPMS

算法

+

ICD

融合树进行最终

科室结果的正确性对比

找到最适合的实体识别

+

实体归一化算法

以此选择最终的实体识别和实体

归一化算法.结果如表

3

所示

3

实体识别

+

实体归一化结果

实体识别

实体归一化

基于词典特征

BERT+

本文

Bi-LSTM

+

CRF

CRF

方法

本文方法

0.80

0.83

0.88

BERT

0.75

0.78

0.80

5.3

科室推荐算法对比

在上一节中.本文使用预滤噪的

BERT

实体识

别和部位制导的医疗实体归一化算法进行最终导诊

算法的前置工作

本节通过对比简单的加权求和算

法和本文的

WBDPMS

算法

并且考虑权重对推荐

结果的影响。“

症状一疾病

关系和

疾病一科室

系上不含权重表示为各条关系的权重相同

通过对

“症状一疾病

疾病一科室”

都不含权重

分别

只有一个关系上有权重和都包含权重

对算法结果

进行对比

同时

为了判断

ICD

疾病层次对结果的

影响

本文在数据中是否利用

ICD

层次结构进行算

法优化进行对比

实验结果如表

4

所示

J

导诊算法结果

重设置

症状一疾病

权重

算法

疾病一科室

权重

加权求和算法

0.54

0.610.640.71

加权求和算法

+

ICD

融合树

0.71

0.760.790.80

本文

WBDPMS

算法

0.61

0.65

0.67

0.72

本文

WBDPMS

算法

+

ICD

融合树

0.75

0.800.82

0.88

结果显示

两种关系权重都能带来一定的精确

率提升,

症状一疾病

”权重可以通过症状在不同疾

病上的特征性不同以提高预测疾病的准确性

病一科室

权重通过不同科室对相同疾病治疗的权

威性进行优化。

WBDPMS

算法在各种权重设置情

况下均比加权求和算法精确率更高

且包含的权重

越多提升越显著。

同时

由于

ICD

疾病层次可以使

未链接到科室的疾病节点找到适合的科室

预测效

果比没用

ICD

疾病层次的效果更优

134

中文信息学报

2021

6

结论与未来工作

本文实现了一个基于症状一疾病一科室一医院

知识图谱的智能导诊平台

解决了主诉识别

图谱知

识表示与多源图谱融合等难点问题•推荐正确率达

到了

0.88,

并在区域卫生平台成功上线。

在未来的

工作中.我们将通过引入对话系统

增强患者与系统

之间的交互

。在一次问询之后

系统将主动询问患

者可能患有的其他症状.做进一步的鉴别诊断.以提

高推荐的精度

参考文献

[1]

马锤

张岩

王宏志.等.面对智能导诊的个性化推荐算

[J].

智能系统学报

2018.

13(3)

352-358.

[2]

梁璐.基于

VSM

权重改进算法的智能导医系统研究

[D].

郑州

郑州大学硕士学位论文

2014.

[3]

徐奕枫.刘利军

黄青松.等.智能导医系统中

TF-

1DF

权重改进算法研究

[J].

计算机工程与应用

2017,23(4)

:

238-243.

[4]

Niu

X

,

Sun

X,

Wang

H,

et

al.

Zhishi.

me-weaving

Chinese

linking

open

data[C]//Proceedings

of

the

10th

In

ternational

Semantic

Web

Conference.

Springer,

Berlin.

Heidelberg*

2011

205-220.

[5]

Wang

Z,

Li

J

,

Wang

Z,

et

al.

XLore

:

A

large-scale

English-Chinese

bilingual

knowledge

graph[C]//Pro

­

ceedings

of

the

12th

International

Semantic

Web

Con

ference

(

Posters

&

Demos)

.

2013»

1035

:

121-124.

[6]

于彤

苏大明

尹仁芳

等.中医药知识服务平台构建的

研究

[J].

中国医学创新

2014(15):120-123.

[7]

Yu

T

,

Li

J

,

Yu

Q.

et

al.

Knowledge

graph

for

TCM

health

preservation

:

Design,

construction,

and

appli-

cationsf

J

].

Artificial

Intelligence

in

Medicine*

2017»

77

48-52.

[8]

Qiu

J

,

Zhou

Y

,

Wang

Q

et

al.

Chinese

clinical

named

entity

recognition

using

residual

dilated

convolutional

刘道文

(

1995 ).

硕士研究生

主要研究领域为

知识图谱

图数据库

E-mail

:

*******************

n

张晨童

(

1995-

),

硕十研究生

主要研究领域为

知识图谱

E-mail

:

chentong_zhang@

neural

network

with

conditional

random

field[J].IEEE

Transactions

on

NanoBioscience,

2019,

18(3)

306-

315.

[9]

Wang

Q.

Zhou

Y,

Ruan

T,

et

al.

Incorporating

dic

­

tionaries

into

deep

neural

networks

for

the

Chinese

clinical

named

entity

recognition

[

J

].

Journal

of

Bio

­

medical

Informatics*

2019,

92

103133.

LlOj

Gong

C,

Tang

J

,

Zhou

S,

et

al.

Chinese

named

entity

recognition

with

Bert

[

J

].

DEStech

Transactions

on

Computer

Science

and

Engineering

»

2019

33299.

[11]

Wang

Q,

Wang

T,

Xu

C.

Using

a

knowledge

graph

for

hypernymy

detection

between

Chinese

symptoms

[C]//Proceedings

of

the

10th

Inter

national

Confer-

ence

on

Advanced

Computational

Intelligence.

IEEE,

2018

601-606.

[12]

Zhang

J,

Wang

Q,

Zhang

Z,

et

al.

An

effective

standardization

method

for

the

lab

indicators

in

re

­

gional

medical

health

platform

using

n-grams

and

stackingCCH

//

Proceedings

of

the

2018

IEEE

Interna­

tional

Conference

on

Bioinformatics

and

Biomedicine.

IEEE,

2018

1602-1609.

[13]

Devlin

J,

Chang

M

W

,

Lee

K,

et

al.

Bert

:

Pre-train

­

ing

of

deep

bidirectional

transformers

for

language

understandingCJ].

arXiv

preprint

arXiv

1810.04805,

201&

[14]

Vaswani

A

,

Shazeer

N,

Parmar

N,

et

al.

Attention

is

all

you

needEC]//Proceedings

of

the

31st

Internation

­

al

Conference

on

Neural

Information

Processing

Sys

­

tems,

2017

6000-6010.

[15]

Huang

Z,

Lu

X,

Duan

H,

et

al.

Collaboration-based

medical

knowledge

recommendation]J].

Artificial

In

­

telligence

in

Medicine*

2012,

55(1)

13-24.

[16]

Thong

N

T.

Intuitionistic

fuzzy

recommender

sys

­

tems

An

effective

tool

for

medical

diagnosis

C

J

].

Knowledge

Based

Systems

.

2015,

74

:

133-150.

[17]

阮彤

孙程琳

王昊奋

等.中医药知识图谱构建与

应用

[J1

医学信息学杂志

2016,

37(4)

8-13.

8]

阮彤

王昊奋.基于本体的医疗健康语义知识库构建

EJ1

中国信息界

(

e

医疗

),

2014

(6)

47.

阮彤

(

1973

),

通信作者.博士•教授•主要研究

领域为自然语言处理

知识图谱

数据质量评估

E-mail

:

******************.cn


发布者:admin,转转请注明出处:http://www.yc00.com/web/1712954241a2154865.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信