基于多源知识图谱融合的智能导诊算法|江阴雨辰互联

2024年4月13日发(作者：)

第

卷第

期

中文信息学报

2021

年

月

JOURNAL

CHINESE

INFORMATION

PROCESSING

Vol.

35,

No.

Jan.,

2021

文章编号

：

1003-0077(2021)01-0125-10

基于多源知识图谱融合的智能导诊算法

刘道文

阮彤X张晨童-邱家辉

】

，翟洁

】

，

何萍

葛小玲彳

(

华东理工大学信息科学与工程学院

，

上海

200237

；

上海申康医院发展中心

医联中心

，

上海

200120

；

复旦大学附属儿科医院

信息中心

，

上海

201102)

摘要

：

患者网上挂号时常有挂错科室的现象•因此需要科室推荐应用•功能类似线下医院的护士台预诊

。

然而

，

由于医院科室设置不尽相同

，

患者各项特征和科室之间的关系也不明确

，给自动科室推荐带来挑战

。

因此

，

该文首

先定义了带权重的知识图谱•用于描述症状

、

疾病以及性别等特征与科室和医院之间复杂的量化关系

。

其次

，

利用

区域信息平台的电子健康档案

(electronic

health

records,EHR)

数据•获取多家医院的疾病一科室信息

。

在融合国

际疾病编码(

international

classification

diseases*

ICD)

、

医疗网站中的症状

疾病数据后

，

用搜索引擎结果补充权

重关系•形成可用的知识图谱

。

图谱目前包含了

家医院

，

110

个科室

，

220

个症状

，60

736

个症状相关疾病关

系

。

当患者输入基于自然语言描述的症状与疾病后•通过该文设计的预滤噪的

BERT

实体识别模型与部位制导的

医疗实体归一化算法•识别并归一化患者主诉中的症状词

、疾病词和部位词

。

最后

，

基于该文设计的基于权重的联

合症状预测疾病概率算法(

weight-based

disease

prediction

algorithm

based

multiple

symptoms

WBDPMS)

，

联合

多个症状预测可能的相关疾病•以此来实现通过主诉推荐最合适的医院及科室

。

实验结果表明

，

准确率达到

0.88

。

关键词

：

知识图谱

；

智能导诊

；

实体识别

；

实体对齐

；

实体归一化

中图分类号

：

TP391

文献标识码

：

Clinical

Departments

Recommendation

Fusing

Knowledge

Graphs

from

Electronic

Healthcare

Records

and

Medical

Websites

LIU

Daowen

RUAN

Tong

ZHANG

Chentong

QIU

Jiahui

ZHAI

Jie

Ping

Xiaoling

(

School

Information

Science

and

Engineering

East

China

University

Science

and

Technology,

Shanghai

200237,

China

；

Shanghai

Hospital

Development

Center*

Shanghai

200120

»China;

formation

Centre*

Children

Hospital

Fudan

Universit

・

Shanghai

201102

»China)

Abstract

The

clinical

department

recommendation

challenging

task

since

the

settings

department

are

different

among

hospitals.

Meanwhile

the

relationships

between

symptoms

and

departments

are

also

unclear.

this

paper,

weighted

knowledge

graph

defined

and

constructed

from

local

EHR

data,

ICD

(International

Classification

Dis

eases)

and

online

medical

websites

establish

the

quantitative

relationship

among

symptoms

diseases

and

depart

ments.

The

constructed

knowledge

graph

contains

hospitals*

110

departments*

220

symptoms

and

736

symptoms-related

diseases.

The

proposed

recommendation

system

recognizes

the

symptoms

words

disease

words

and

body

part

words

patients*

chief

complaint

Bert

entity

recognition

model.

Finallyw

weight-based

disease

prediction

algorithm

based

multiple

symptoms

(

WBDPMS)

designed

identify

the

candidate

diseases

and

thus

recommend

the

most

suitable

hospitals

and

departments.

The

experimental

results

show

that

the

accuracy

reaches

0.8

Keywords

knowledge

graph;

intelligent

guidance

；

entity

recognition

；

entity

alignment;

entity

normalization

收稿日期:

2020-01-11

定稿日期:

2020-02-14

基金项目

：国家科技重大专项项目

(

2019ZX09201004)

；

基于上海区域卫生信息平台的复旦儿科医联体互联网医院项目

(201701013)

126

中文信息学报

2021

年

引言

网上预约挂号系统由于省去了患者在医院排队

挂号的时间

，受到了患者的欢迎

。

然而.大型三甲医

院通常有几十个科室

，

大多数患者并不了解临床科

室的分工，

而只能简单描述自己的症状

。

线下挂号

时.患者通常通过医院导医台向护士叙述症状.护士

推荐合适的科室

。

但是

，

目前线上缺乏这样的服务

，

患者只能通过网络搜索获得相关信息

。

但是由于症

状和科室缺乏明确的对应关系

，同时各医院科室设

置不同，再加上医院提供信息不完整

，

医疗广告又充

斥互联网，

使得使用搜索的患者最终无所适从

。

因

此

，

构建一个智能科室推荐系统

，

将合适的科室推荐

给需要的患者，

可以解决患者网上挂号遇到的实际

问题

，

减少患者挂错号的情况。

其中智能导诊服务

还存在以下问题

：

(1)

患者主诉中症状描述的多样性问题

。

需要

从患者对病情的不规范文本描述中.有效识别症状

信息或患者预判的疾病信息，

并归一化到知识图谱

的标准实体上

。

(2)

病人各类特征与就诊科室之间的关系缺乏

良好和可扩充的知识表示方式

。

首先

，

症状和疾病

、

疾病和科室是多对多的关系

，

部分科室不一定和症

状相关

，

而是和部位

、

年龄与性别等紧密关联

。

再

者

，

精准的导诊算法依赖于这些类之间的量化关系

。

其次

，

各家医院的科室设置不尽相同.意味着相同的

疾病可能会到不同医院的不同科室

。

分析上海区域

平台数据发现.

“

甲状腺结节

”

在瑞金医院的

“

普通外

科

”

挂号最多

，

但在岳阳医院的挂号却是

“

内分泌科

”

最多

。

用何种知识表示模型描述上述知识

，

是一个

难点问题

。

目前的导诊推荐系统大多采用向量空间

计算疾病相似度的方法然而

，

这些方法没有体

现医学的强知识型和可解释性

。

因此

，

采用其他方

式

，如知识图谱是一个可选方案

。

虽然目前有诸多

发布的医疗知识图谱金门

，

但从本文应用角度

，

缺乏

病人特征和科室之间关系的模式描述

；

从知识表示

角度

，

未见量化关系的描述

；

从图谱数据角度

，

缺乏

知识数据与真实医疗数据的融合

。

(

图谱数据来源的选择与图谱融合方法问

题

。

知识图谱可以通过几种方式构建

，

一是人工构

建

，

二是通过医书或是来源于医书的互联网网站

，

三是通过区域平台电子健康档案

(

electronic

health

records,EHR)

自动获取

，

四是结合第二种和第三种

方案

，

对两种数据来源进行融合

。

第一种方案工作

量太大

；

第二种方案在书中不存在真实科室数据

；

第

三种方案需要多家医院电子病历数据或是区域卫生

平台数据

，

症状数据通常又在文本中.不但采集工作

量大

，而且数据清洗和处理复杂度更高

。

为此.本文

选择第四种方案

，

该方案的复杂度在于需要进行多

源数据融合，

包括不同来源实体的对齐与上下位关

系的识别等

。

由于来自网络的症状-疾病图谱的疾

病术语数据较少

，

而来自真实数据的疾病-科室图谱

存在疾病术语描述不规范问题

，

因此.知识数据和真

实数据的直接融合匹配率并不高

，

为此

，

本文使用基

于国际疾病分类

(

international

classification

dis

eases.

ICD)

的术语体系作为桥梁融合两个图谱

。

针对智能导诊服务中的问题

，

本文提出了一种

基于知识图谱的智能导诊方法

。

本方法的贡献点

如下

：

(

)

设计了面向导诊的带权重的医疗图谱模

式

，

可以量化地定义科室与症状

、

疾病

、

性别和部位

之间的关联关系与概率关系

。

(2)

以国际疾病分类

ICD

为基础.通过融合互

联网知识数据与区域大规模

EHR

真实数据

，

构建

了量化的症状一疾病一科室一医院图谱

。

实验证

明.通过

1CD

进行融合

，

比直接将互联网知识数据

与区域大规模

EHR

真实数据进行融合

，

最终的科

室推荐准确率提升了

10%

左右

。

(3)

针对网络问诊文本不规范情况.提出了预

滤噪的

BERT

实体识别模型

，

比经典的

BERT

CRF

模型提高了

的召回率

，

的

值

。

针对

医学实体归一化问题，

提出了部位制导的医疗实体

归一化算法

，

对比经典的

BERT

CRF

模型

，

提升

的准确率

，

30%

的召回率

，

17%

的

值

。

(4)

提出了基于权重的联合症状预测疾病概率

(

weight-based

disease

prediction

algorithm

based

multiple

symptoms,

WBDPMS)

算法

，

实现了

多

症状的疾病预测与基于患者信息的精准的科室推

荐

。

实验证明

，

该算法比一般的加权求和算法的科

室预测准确率提升了

10%

以上

。

上海申康医联平台使上海市三甲医院的数据信

息得以互联互通

，

实现了网上预约挂号服务.本文的

方法在上海申康医联平台

2018

年

月上线以来

，

截

止到

2019

年

月，

一年时间共计

795

次访问

，

取

得了良好的反馈

。

期

刘道文等

：

基于多源知识图谱融合的智能导诊算法

127

基于多源知识图谱融合的智能导诊算法

发表回复

评论列表（0条）

联系我们

400-800-8888

基于多源知识图谱融合的智能导诊算法

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888