2024年4月13日发(作者:)
第
35
卷第
1
期
中文信息学报
2021
年
1
月
JOURNAL
OF
CHINESE
INFORMATION
PROCESSING
Vol.
35,
No.
1
Jan.,
2021
文章编号
:
1003-0077(2021)01-0125-10
基于多源知识图谱融合的智能导诊算法
刘道文
I,
阮彤X张晨童-邱家辉
】
,翟洁
】
,
何萍
2,
葛小玲彳
(
1.
华东理工大学信息科学与工程学院
,
上海
200237
;
2.
上海申康医院发展中心
医联中心
,
上海
200120
;
3.
复旦大学附属儿科医院
信息中心
,
上海
201102)
摘要
:
患者网上挂号时常有挂错科室的现象•因此需要科室推荐应用•功能类似线下医院的护士台预诊
。
然而
,
由于医院科室设置不尽相同
,
患者各项特征和科室之间的关系也不明确
,给自动科室推荐带来挑战
。
因此
,
该文首
先定义了带权重的知识图谱•用于描述症状
、
疾病以及性别等特征与科室和医院之间复杂的量化关系
。
其次
,
利用
区域信息平台的电子健康档案
(electronic
health
records,EHR)
数据•获取多家医院的疾病一科室信息
。
在融合国
际疾病编码(
international
classification
of
diseases*
ICD)
、
医疗网站中的症状
疾病数据后
,
用搜索引擎结果补充权
重关系•形成可用的知识图谱
。
图谱目前包含了
38
家医院
,
6
110
个科室
,
6
220
个症状
,60
736
个症状相关疾病关
系
。
当患者输入基于自然语言描述的症状与疾病后•通过该文设计的预滤噪的
BERT
实体识别模型与部位制导的
医疗实体归一化算法•识别并归一化患者主诉中的症状词
、疾病词和部位词
。
最后
,
基于该文设计的基于权重的联
合症状预测疾病概率算法(
weight-based
disease
prediction
algorithm
based
on
multiple
symptoms
.
WBDPMS)
,
联合
多个症状预测可能的相关疾病•以此来实现通过主诉推荐最合适的医院及科室
。
实验结果表明
,
准确率达到
0.88
。
关键词
:
知识图谱
;
智能导诊
;
实体识别
;
实体对齐
;
实体归一化
中图分类号
:
TP391
文献标识码
:
A
Clinical
Departments
Recommendation
by
Fusing
Knowledge
Graphs
from
Electronic
Healthcare
Records
and
Medical
Websites
LIU
Daowen
1
,
RUAN
Tong
1
,
ZHANG
Chentong
1
,
QIU
Jiahui
1
,
ZHAI
Jie
1
,
HE
Ping
2
,
GE
Xiaoling
1
(
1.
School
of
Information
Science
and
Engineering
*
East
China
University
of
Science
and
Technology,
Shanghai
200237,
China
;
2.
Shanghai
Hospital
Development
Center*
Shanghai
200120
»China;
3.
In
formation
Centre*
Children
s
Hospital
of
Fudan
Universit
y
・
Shanghai
201102
»China)
Abstract
:
The
clinical
department
recommendation
is
a
challenging
task
since
the
settings
of
department
are
different
among
hospitals.
Meanwhile
the
relationships
between
symptoms
and
departments
are
also
unclear.
In
this
paper,
weighted
knowledge
graph
is
defined
and
constructed
from
local
EHR
data,
ICD
(International
Classification
of
Dis
eases)
and
online
medical
websites
to
establish
the
quantitative
relationship
among
symptoms
»
diseases
and
depart
ments.
The
constructed
knowledge
graph
contains
38
hospitals*
6
110
departments*
6
220
symptoms
and
60
736
symptoms-related
diseases.
The
proposed
recommendation
system
recognizes
the
symptoms
words
»
disease
words
and
body
part
words
in
patients*
chief
complaint
by
a
Bert
entity
recognition
model.
Finallyw
a
weight-based
disease
prediction
algorithm
based
on
multiple
symptoms
(
WBDPMS)
is
designed
to
identify
the
candidate
diseases
and
thus
recommend
the
most
suitable
hospitals
and
departments.
The
experimental
results
show
that
the
accuracy
reaches
0.8
&
Keywords
:
knowledge
graph;
intelligent
guidance
;
entity
recognition
;
entity
alignment;
entity
normalization
收稿日期:
2020-01-11
定稿日期:
2020-02-14
基金项目
:国家科技重大专项项目
(
2019ZX09201004)
;
基于上海区域卫生信息平台的复旦儿科医联体互联网医院项目
(201701013)
126
中文信息学报
2021
年
0
引言
网上预约挂号系统由于省去了患者在医院排队
挂号的时间
,受到了患者的欢迎
。
然而.大型三甲医
院通常有几十个科室
,
大多数患者并不了解临床科
室的分工,
而只能简单描述自己的症状
。
线下挂号
时.患者通常通过医院导医台向护士叙述症状.护士
推荐合适的科室
。
但是
,
目前线上缺乏这样的服务
,
患者只能通过网络搜索获得相关信息
。
但是由于症
状和科室缺乏明确的对应关系
,同时各医院科室设
置不同,再加上医院提供信息不完整
,
医疗广告又充
斥互联网,
使得使用搜索的患者最终无所适从
。
因
此
,
构建一个智能科室推荐系统
,
将合适的科室推荐
给需要的患者,
可以解决患者网上挂号遇到的实际
问题
,
减少患者挂错号的情况。
其中智能导诊服务
还存在以下问题
:
(1)
患者主诉中症状描述的多样性问题
。
需要
从患者对病情的不规范文本描述中.有效识别症状
信息或患者预判的疾病信息,
并归一化到知识图谱
的标准实体上
。
(2)
病人各类特征与就诊科室之间的关系缺乏
良好和可扩充的知识表示方式
。
首先
,
症状和疾病
、
疾病和科室是多对多的关系
,
部分科室不一定和症
状相关
,
而是和部位
、
年龄与性别等紧密关联
。
再
者
,
精准的导诊算法依赖于这些类之间的量化关系
。
其次
,
各家医院的科室设置不尽相同.意味着相同的
疾病可能会到不同医院的不同科室
。
分析上海区域
平台数据发现.
“
甲状腺结节
”
在瑞金医院的
“
普通外
科
”
挂号最多
,
但在岳阳医院的挂号却是
“
内分泌科
”
最多
。
用何种知识表示模型描述上述知识
,
是一个
难点问题
。
目前的导诊推荐系统大多采用向量空间
计算疾病相似度的方法然而
,
这些方法没有体
现医学的强知识型和可解释性
。
因此
,
采用其他方
式
,如知识图谱是一个可选方案
。
虽然目前有诸多
发布的医疗知识图谱金门
,
但从本文应用角度
,
缺乏
病人特征和科室之间关系的模式描述
;
从知识表示
角度
,
未见量化关系的描述
;
从图谱数据角度
,
缺乏
知识数据与真实医疗数据的融合
。
(
3)
图谱数据来源的选择与图谱融合方法问
题
。
知识图谱可以通过几种方式构建
,
一是人工构
建
,
二是通过医书或是来源于医书的互联网网站
,
三是通过区域平台电子健康档案
(
electronic
health
records,EHR)
自动获取
,
四是结合第二种和第三种
方案
,
对两种数据来源进行融合
。
第一种方案工作
量太大
;
第二种方案在书中不存在真实科室数据
;
第
三种方案需要多家医院电子病历数据或是区域卫生
平台数据
,
症状数据通常又在文本中.不但采集工作
量大
,而且数据清洗和处理复杂度更高
。
为此.本文
选择第四种方案
,
该方案的复杂度在于需要进行多
源数据融合,
包括不同来源实体的对齐与上下位关
系的识别等
。
由于来自网络的症状-疾病图谱的疾
病术语数据较少
,
而来自真实数据的疾病-科室图谱
存在疾病术语描述不规范问题
,
因此.知识数据和真
实数据的直接融合匹配率并不高
,
为此
,
本文使用基
于国际疾病分类
(
international
classification
of
dis
eases.
ICD)
的术语体系作为桥梁融合两个图谱
。
针对智能导诊服务中的问题
,
本文提出了一种
基于知识图谱的智能导诊方法
。
本方法的贡献点
如下
:
(
1
)
设计了面向导诊的带权重的医疗图谱模
式
,
可以量化地定义科室与症状
、
疾病
、
性别和部位
之间的关联关系与概率关系
。
(2)
以国际疾病分类
ICD
为基础.通过融合互
联网知识数据与区域大规模
EHR
真实数据
,
构建
了量化的症状一疾病一科室一医院图谱
。
实验证
明.通过
1CD
进行融合
,
比直接将互联网知识数据
与区域大规模
EHR
真实数据进行融合
,
最终的科
室推荐准确率提升了
10%
左右
。
(3)
针对网络问诊文本不规范情况.提出了预
滤噪的
BERT
实体识别模型
,
比经典的
BERT
+
CRF
模型提高了
5%
的召回率
,
3%
的
Fi
值
。
针对
医学实体归一化问题,
提出了部位制导的医疗实体
归一化算法
,
对比经典的
BERT
+
CRF
模型
,
提升
T
3%
的准确率
,
30%
的召回率
,
17%
的
F,
值
。
(4)
提出了基于权重的联合症状预测疾病概率
(
weight-based
disease
prediction
algorithm
based
on
multiple
symptoms,
WBDPMS)
算法
,
实现了
多
症状的疾病预测与基于患者信息的精准的科室推
荐
。
实验证明
,
该算法比一般的加权求和算法的科
室预测准确率提升了
10%
以上
。
上海申康医联平台使上海市三甲医院的数据信
息得以互联互通
,
实现了网上预约挂号服务.本文的
方法在上海申康医联平台
2018
年
1
月上线以来
,
截
止到
2019
年
1
月,
一年时间共计
63
795
次访问
,
取
得了良好的反馈
。
1
期
刘道文等
:
基于多源知识图谱融合的智能导诊算法
127
1
相关工作
智能导诊的研究目前大多采用的方法是将传统
数据驱动的推荐算法适配于医疗领域
。
马铉等•提
出了一种面向智能导诊的个性化推荐算法
,
以辅助
诊疗的结果为基础
,
和基于协同过滤的评分方式有
机结合
,
其算法能根据患者的症状表现与地理位置
等个人信息
,为用户提供个性化的推荐结果
。
梁
璐⑵基于向量空间模型对权重计算进行了改进
,
其
核心思想在于将患者输入的症状向量化
,
与疾病症
状集中的疾病向量进行相似度计算
,
进而预测患者
疾病
。
徐奕枫等⑶在梁璐的基础上
,
提出了重心后
移的概念.他将症状中的每个字赋予权重
,
后面字权
重大于前面字
。医学领域的特点是强知识性与解释
性
,
病人特征和推荐的科室之间有着直接的因果关
联
,
与传统的基于机器学习的电影推荐和书本推荐
完全不同
。
为此
,
本文提出了基于知识图谱的智能
导诊算法
,
以适应医学领域的特点与要求
。
准确且完善的面向智能导诊的知识图谱是本文
研究的数据基础
。
在国内
,
清华大学和上海交通大
学利用网络百科知识
,
构建大规模的通用知识图谱.
如
⑷和
XLORE
⑸
。
在医疗领域
,
国外构
建了临床医疗术语集
SNOMED-CT
这样的通用的
术语分类系统
,
面向药物的命名系统
RxNorm.
针对
观测指标的编码系统
LOINC,
以及被广泛应用的疾
病分类系统
ICD
等医疗术语体系
。
在国内
,于彤
等构建了
TCMKS
中医药知识图谱及其服务平
台
。
本文采用自顶向下的图谱构建方式
,
并在图谱
模式层扩充了权重
,
图谱数据层采用了知识数据与
业务数据相融合的方式
。
智能导诊前置工作为患者主诉处理
,
首先要从
患者主诉中识别症状词等实体信息
。
Qiu
等
z
利用
残差神经网络获取上下文信息
,
然后通过条件随机
场捕获相邻标签之间的依赖关系
,
该方法在疾病
、
症
状等医疗实体的识别任务上取得了比
RNN
算法更
好的结果
。
Wang
等⑼将医学字典信息输入到
Bi-
LSTM
+
CRF
模型中.能更好地处理字典中存在但
数据中很少出现的实体
。
Gong
等
〔
讪使用谷歌提出
的
BERT
模型进行实体识别
,
并且在字符嵌入中加
入了汉语词根信息.可以更好地利用语义进行实体
识别
。
然而
,
上述模型不能很好地处理主诉噪声多、
描述不规范的问题.因此本文提岀了预滤噪的
BERT
实体识别方法,
该方法通过对主诉文本进行
预处理和后处理去除部分噪声
,
提升医学实体输岀
的规范性
。
为了将实体归一化到知识图谱的节点上
,
Wang
等
M
提出的
Bi-GRU-CapsNet
模型
,
更好地解决了
词汇量不足
(
out
of
vocabulary,
()()V
)
的问题
。
Zhang
等
[
也的方法使用多种字符串相似性的结果
作为输入,
对比了朴素贝叶斯
、
随机森林
、
逻辑回归
和
Stacking
等模型
,
对实体和节点进行归一化
。谷
歌提出的
BERT
模型也可用在该实体归一化
任务上
。
输入为待实体归一化的实体和知识图谱中
的实体.输出为知识图谱实体中的匹配分数。
然而
,
部位对医疗实体的归一化有着重要的影响.本文提
出的部位制导的医疗实体归一化算法
,
提高了实体
归一化的准确性
。
2
整体框架
本文的整体框架如图
1
所示。
分为两部分
,
左
半部分是知识图谱构建过程,
右半部分是基于知识
图谱的智能导诊算法
。
知识图谱构建中
,
融合了医疗百科网站
、
区域卫
生平台
EHR
数据
JCD-10
和
ICD-11
,
以及搜索引
擎的联合搜索概率等多源数据
,
具体过程如下
:
①基于医疗百科网站信息.构建症状一疾病知识图
谱
。
对于任意两个症状和疾病.利用搜索引擎中联
合搜索的条目数计算症状和疾病之间的权重
;
②基
于上海区域卫生平台提供的
38
家三甲医院半年来
科室治疗疾病的统计数据
,
构建疾病一科室一医院
图谱
,
利用就诊次数计算疾病和科室之间的权重
;
③利用
ICD
的疾病层次关系融合上述两个图谱
,以
补全疾病一科室对应关系
。
真实数据中并非所有疾
病名词都存在对应的科室
,
但通过同义词或上下位
关系可以找到含有对应科室的疾病节点
。
因此.带
有同义词与上下位关系的疾病图谱可以弥补真实数
据中疾病一科室关系的不足
。
由于医疗百科网站和
区域卫生平台
EHR
数据中并没有疾病同义词及上
下位关系
,
因此本文利用国际疾病分类
ICD
的
11
版本和
10
版本.形成带层次的疾病图谱.进而融合
症状一疾病
、疾病一科室一医院两个知识图谱
。
在智能导诊过程中
,
患者输入中文主诉文本
、
性
别和年龄段
,
首先利用本文提出的预滤噪的
BERT
实体识别模型对主诉文本进行实体识别.获得患者
主诉中的症状实体和疾病实体
。
其次
,
再利用部位
制导的医疗实体归一化算法将这些实体归一化到图
128
中文信息学报
2021
年
知识图谱构建
数据源
:
(1)
医疗百
:
;
;
:
;
科网站
J
](2)
区域卫生
'
:
'
;
(
3)ICD
国际]
r
联合搜索
j
:平觴
R
::
疾病分类
;
:概率
;
:時
:
;
面向智能导诊的知识图谱
*
i
.
知识图
谱融合
图
1
基于多源知识图谱融合的智能导诊方法整体框架
谱中的相应节点
。
最后
,
通过本文提出的基于权重
的联合症状预测疾病概率算法
(WBDPMS)
在图谱
上计算患者可能患有的疾病及其权重
,
进而通过权
是关系
E
、上的权重
。
E,
分为两种
,
一种是类节点之间的关系
,
另一
种是属性关系
。
前者称为对象属性
,
后者称为数据
重融合算法推荐最合适的科室及医院
。
属性
。
对象属性有五个
,
分别存在于疾病和疾病
、
症
状和疾病
、
疾病和科室
、
科室和医院之间
。
疾病和疾
3
知识图谱构建
3.1
面向导诊的知识图谱模式图定义
图
2
展示了面向导诊的知识图谱
,
上半部分是
模式图
,
下半部分是数据图
。
模式图由三元组
G
=
〈
N
「
E
、
,
WQ
组成
,
N,
是
病节点之间存在上下位和同义词关系
。
数据属性有
两个
,
存在于疾病节点和科室节点上
,
分别为性别和
年龄
。
由于部分疾病和科室与性别和年龄有关
,
比
如
“
月经不调
”
是女性疾病
,
而
“
老年高血压
”
是老人
特有的疾病
,
而
“
妇科
”
和
“
儿科
”
分别面向女性和儿
童两个群体。
因此.图谱在疾病和科室上增加了
“
性
别
”
秋'年龄
”
两个属性
,
用于进一度提升导诊算法的
知识图谱类别节点
,
包含了
4
个类节点
,
分别是症
状
、
疾病
、
科室和医院
,
E,
是节点
N
、
之间的关系
,
模式图
:
GRNy
E
s
,
W$)
类
精度
。
年龄|
疾病名称
疾病名称
关系
属性
W
~|
|
性别
f
性别|
实像
医院名称
科室名称
I
:
疾届相关科室
症送
畦
g
届
孑
症状名称
y
数据图
:
;
1
I
'
病症上下位关系
医院
1
Weight:0.37
急性上呼
吸道感染
Weight:0.65
发烧
医院
2
Weight:0.63
、
:
将症同义关系
Weight:
73
七
--------
咳嗽
。
.
Weight:0.89
Weight:0.27
图
2
面向导诊的知识图谱模式图及数据图
1
期
刘道文等
:
基于多源知识图谱融合的智能导诊算法
129
W.
是附属在
E
、
上的属性存在于症状和
疾病
、
疾病和科室上
,
前者代表症状和疾病关联的概
率
,
后考代表疾病和挂号科室关联的概率
。
由于不
同症状在不同疾病上的贡献度不同
,
可能引起的疾
病也不同.如果症状和疾病之间没有权重关系的话
,
会导致如
“
发烧
”
这个症状预测出来的
“
感冒
”
和
“
小
儿腹泻
”
的权重相同
。
此外.由于区域卫生平台
EHR
数据的真实性.疾病在不同医院的不同科室之
间的权威性都不同.通过
“
疾病一科室
”关系之间的
权重能让患者更好地选择有权威性的科室及医院
。
本文在实验过程中
,
针对权重设置对推荐结果的准
确性进行了对比
。
数据图是模式图的实例
,
以图
2
面向导诊的知
识图谱模式图及数据图的数据为例.描述的是症状
“
发烧
”
,
链接的疾病为
“
急性上呼吸道感染
”
.其概率
为
0.65
。
症状
“
咳嗽
”
链接的疾病为
“
急性上呼吸道
感染
”
和
“
哮喘
”
,
概率分别为
0.73
和
0.27.
说明
“
咳
嗽
”
更有可能是由
“
急性上呼吸道感染
”
导致的
。
同
时
,
“
急性上呼吸道感染
”
存在上位词
“
上呼吸道感
染
”
和同义词
“
感冒
”
。
“
急性上呼吸道感染
”
有
0.37
的概率会去传染科治疗
,0.63
的概率去呼吸内科治
疗
,
“
哮喘
”
有
0.89
的概率去呼吸内科治疗
。
医院
1
有传染科和呼吸内科.医院
2
有呼吸内科
。
3.2
面向导诊的知识图谱构建过程
首先
,
选取
39
健康网为知识抽取源站
,
从疾病
列表页获取所有疾病列表
,
通过疾病名称进入详情
页.抽取疾病别名
、
发病部位和典型症状信息.构建
“
疾病一症状
”
信息
。
由此得到的症状以及症状疾
病关系可能不全.进一步根据症状列表补全症状.并
由症状页链向疾病的关系.对
“
疾病一症状
”信息进
行补充
。
其次
,
补充单个症状与疾病之间的概率关系
。
本文以搜索引擎中症状一疾病对出现的频次计算相
关程度
。
在搜索引擎上对
〈
症状一疾病
〉
对
pair<
”
“
>
进行联合搜索.获取
pair
“
在互联网上的出现次数
作为分子
,
记为
count(
pair
,.j
)
,S<,=
1
,s
:
.
…
,
s,
}
为疾病
d
所链接的所有症状
,
因此症状和疾病的权
重计算如式
(
1)
所示
。
Weight
〈
s-d
〉
count(pair
2_j
--------------
count
(pair
—
〈
—
—
)
s-d
〉
)
⑴
再者.构造疾病
医院图谱
。基于区域
卫生平台
EHR
数据.抽取其中的疾病及其挂号的
科室信息
,包括在该科室挂号的次数和科室所在的
医院
,
用以构建疾病一科室一医院图谱
。
较百科知
识型数据而言
,
使用区域卫生平台数据真实数据构
建疾病一科室一医院关系的优点如下
:
(
1
)
体现医院的科室设置不同.例如
,
“
呼吸内
科
”
在不同医院的名称不同.有
“
呼吸科门诊
”
“
呼吸
科
”
“门诊呼吸科
”
等.而看起来相似的科室
,
具体面
向的疾病也有不同
。
因此.本文的知识图谱是从疾
病链接到不同医院的不同科室
,
并没有对科室做归
一化处理
。
(2)
疾病挂号次数体现了某疾病在该科室下的
治疗经验
,
可以作为
“
疾病一科室
”
关系的权重.能为
推荐带来更高的精准度
。
(3)
医院特定疾病的挂号次数体现了医院治疗
该疾病的经验
。
本文获取的区域卫生平台
EHR
数据共计
1
780
449
条.通过对数据中的异常值记录进行清洗
后.得到有效数据
281
488
条
。
形成了
“
疾病…
科
室
”
关系
281
488
条
、
“
科室一医院
”
关系
6
110
条
。
最后
,将两个图谱进行融合
。
EHR
数据中虽然
疾病名称众多.但是疾病名称并不规范和全面.因此
疾病一科室关系不完整.会导致有些疾病没有科室
可挂的情况。
此时可以通过疾病的同义关系或上下
位关系找到挂号科室
。
因此.需要具有同义词与上
下位关系的疾病图谱,弥补真实数据中疾病一科室
关系的不足
。
为此
,
本文利用
ICD
国际疾病分类.将
ICI3
分
别和症状-疾病图谱以及疾病一科室-医院图谱融
合.构建完整的症状一疾病一科室一医院图谱
。
本
文采用
Wang
等⑴
」
的方法进行上下位及同义词识
别.进行图谱的融合
。
ICD10
中共有
18
050
个疾
病节点
,ICD-11
中共有
3
542
个疾病节点
。
通过
EHR
构建的图谱共有
20
756
个疾病节点.通过同
义词和上下位识别.与
ICD
树关联上
9
408
个疾病
节点
。其中上下位关系
57
423
条
、
同义词关系
2
927
条
。
最终生成的知识图谱包含症状节点
6
220
个
,
疾病节点
30
164
个.科室节点
6
110
个.医院节点
38
个,
症状
一-
疾病关系
60
736
条
,
疾病上下位关系
57
423
条.疾病同义词关系
2
927
条
,
疾病-科室关
系
281
488
条
,
科室
—
医院关系
6
110
条
。
4
智能导诊算法
4.1
算法流程与实现
如图
3
所示
,
智能导诊算法分为四部分
:
首先
130
中文信息学报
2021
年
主诉
性别
年龄
I
I
凝
-----------------------------
需帀丁成可-
!
I
----------
L
______
■
预滤噪的
BERT
I
实体识别模型
:症状集
:
;
疾病集
:
;
部位集
:头有点痛
:
:
咸冒
:发烧
「
心'目
头
部位制导的医疗
实体归一化算法
I
:症状节点
[
[
疾病节点
?
头痛
(id=50
607)
发烧
(id=50
613)
感冒
(id=36
002)
基于权重的联合症状
预测疾病概率算法
预测疾病集
感冒
0.583
及其权重
小儿感冒
0.214
—
流感
0.203
融合权重算法
推荐患者去的
医院
1
-
呼吸内科
-43%
科室及其权重
医院
2
-呼吸科
-32%
医院
3
-内科
-25%
图
3
智能导诊算法流程
识别患者主诉中的实体词
(
包括症状
、
疾病和部位
)
,
算法结构如图
4
所示
,
首先将主诉输入基于词典特
然后对实体词向知识图谱进行归一化
。
接着通过
征的
Bi-LSTM
+
CRF
模型⑵
,
其中部位词典采用
WBDPMS
算法
,
基于图谱中的关系和权重.计算患
《
人体解剖学名词
(
第二版
)
》
中的部位词
(
共
3
063
);
者可能患有的疾病和概率
。
最后通过融合权重算
症状词典采用文献
[
2
]
的症状词典
(
共
762
)
和本文
法
,
结合
“
疾病一科室
”
关系上的权重
,
给出最合适的
知识图谱症状节点名称(
共
6
220
)
进行融合
,
得到最
医院和科室
。
终的症状词典
(
共
6
829
个
)
。
我们将患者主诉的每
4.2
个字进行向量化,
组成模型的输入“
,
并且采用位
患者主诉实体识别与实体归一化
置相关实体特征
(
position-dependent
entity
type
由于患者主诉不规范.存在大量的与诊疗无关
feature,
PDET
type
)
构建输入
d,
。
e,
和
d,
分别经
的语句和字词
。无关语句主要表现在存在很多与病
过
Bi-LSTM
+
CRF
层
,
将输出进行合并.再通过
情描述无关的语句上.例如
,
“
医生您好
”
“
请问是什
CRF
层输出主诉中的症状词和部位词
。
将
CRF
层
么原因
”
等。
同时.由于本文对症状时间不做处理
,
输岀的结果里同一子句中的部位词和症状词中间的
因此
,
病人描述的时间语句在该系统中视为无关语
无关词语删除
,
并且将没有出现过任何实体的子句
句
,
例如
,
“
怀孕已经
28
周了
”
“
每次一到冬天的时
作为无关语句删除
,
获得滤噪后的主诉
。
以
候
”
“
反反复复发作
”
等
。
此外•由于患者对症状描述
{
[
CLS
]
滤噪后的主诉
[
SEP
]
}
作为
BERT
的输入
,
存在形容词或副词
,
例如
,
“
头有点痛
”
“
膝盖下面隐
模型输出主诉中的症状实体
。
隐作痛
”
等
。
在对
1
640
条训练数据进行子句分割
,
本文将实体识别出来的症状实体集
S
complain
=
一共得到
10
517
条子句
,
平均每个患者主诉包含
6
<5,
,、
"
,
•••
,
$,
,
•••
}
归一化到知识图谱的症状节点集
个子句
,
但是其中只有
3
099
个子句包含本文需要
N,
=
{
”
1
,
”
2
,
…
,
”
丿
,
其中
N
>
G
Na
。
利用部位
的症状信息
,
占比为
29.5%
。
因此
,
通过对主诉的后
词典对
S
con
,
lllai
„
中的部位进行抽取
,得到部位词
B
o
处理
,
精炼出更加有效的主诉.能有效提高准确率
。
当
$,
和巧部位词不一致时
,
则判断
$,
不能归一化
本文提出了预滤噪的
BERT
实体识别模型
到心上
。
若
s,
没有包含部位词
,
而
”
,
包含部位
(
A
bert
entity
recognition
model
for
pre-filtered
noise
)
o
词
,
例如
,
“
胀痛
”
和
“
肌肉胀痛
”,则将部位词
B
和
$,
1
期
刘道文等
:
基于多源知识图谱融合的智能导诊算法
131
B-Stt
I-
症状
1-«
状
O
O
------
■舎舎金
■舍會
BERT
输入
腹部痛
,
小腹疼痛小便有尿血怎么回事
后处理
我
O
今
O
年
0
20
90
岁
0
了
0
,
0
B0
近
O
-O
段O
时
O间
0
总
O
是
0
感
O
觉
0
身
0
体
O
有
0
点
0
不
O
正
O
常
o
,
0
»B-gf
位词部
1-
部位词总
0
是
O
隐
O
隐
0
作
O
痛
B-
症状词
,
0
所。
以
0
想
0
在O
这
0
咨
。
询
O
—O
下
O
医
O
生
O
,
0
小
B-
部
位词腕
1-
部位词有
0
些
0
疼
B-
症状词搞
I-
症状词小O
便
O
有
O
尿O
血
0
怎
0
么
O
回
0
事
0
?
0
吃
0
点
0
什
O
么
O
药
O
可
0
以
O
缓
0
解
O
疼
0
痛
O
?
O
输出
CRF
concat
LSTM
LSTM
输入
位靈相关实体类型特征]
字向量
j
1
我今年
29
岁了
,
最近一段时间总呈感觉身体有点不正常
,
腹部总是隐隐作痛
,
所以想
在这咨询一下医生
,
小腹有些疼痛小便有尿血怎么回事
。
吃点什么药可以缓解疼痛
?
图
4
预滤噪的
BERT
实体识别模型
进行拼接.进而判断是否能归一化到心上
。
同理
,
用相同的方法从患者主诉中获取疾病实体集
树)、
bagging
(
分类器为决策树)
、
梯度下降树
(GBDT)
、
随机森林(
random
forest
)
、支持向量机
D„>g
=
{右,厶
,…
,
d,
,•••},
称之为患者主诉中预
判疾病集
。
(
support
vector
machine
)
、
逻
辑回归
(
logistics
regression)
、
多层感知器
(
multilayer
perceptron
)
的
方法
,
并且将这些算法通过排列组合进行融合.选择
为了判断
s,
是否能归一化到巧上.本文采用
了多个维度的字符串相似性算法
,
包括最长公共子
其中的一组算法组合以达到最好的效果
。
串的长度占比
、
编辑距离
Jaccard
距离
、
余弦相似
度
、
Hamming
距离和
Levenshtein
距离
,
以此作为
4.3
智能导诊算法的实现
首先
,
我们通过
S
complain
{
S
]
‘
S
2
,
*
*
*
9
S
;
,
…
}
计
模型输入
。
通过对比朴素贝叶斯
(Naive
Bayes
)
、最
近邻
(
KNN
)
、
AdaBoost
(弱分类器为
CART
决策
算患者可能患有的疾病及其权重
。
症状
£
i
C
S
complain
132
中文信息学报
2021
年
相关的疾病集记为
D0
)
=
{
/
,厶
,
…
,
/
,
…
}
。
以疾病
d
,
eo
(
5
z
)
为例
,
令与其相关的症状构成的
症状集记为
S
(/)
=
{
门
,
七
,
・・・•
》
,
…
几且令
I
D(.S,
)
I
表示
0(5,
)
中的疾病总数
。
类似的•将症状
集
s
complain
中所有症状对应的疾病集构成的集合记
为
D(S
”
”
g
、
)
=
S
S($,)
•其疾病总数记为
si
€
Scomplain
I
D(S
bw
)
丨
。
通过改进的
WBDPMS
算法计算患
者可能患有疾病
/
的权重
,
为方便起见.下文将相
似度简记为
W(d,),
如式
(
2)
所示
。
w
(
d,
)
=
2
芒
“
少竺―
"
■'«
W
S
complain
〉
』
Weight<5
r
—
d
}
>
S
r
€S(d
丿
)
10g2
"
|D(S
|DG,
complain
)|+1
)
|
(2)
其中
,
Weight
一
d,
〉
表示某一症状
,
5.
es
和相应疾病
d,
€D(s,
)
关联岀现的概
率
,
S
Weights
”
一
心
〉
表示该疾病
d,
和所有
$«■
W
S(dj
)
对应症状逐一关联出现概率之和
。
通过式
(
2)
得出了基于患者主诉中的症状预测
的疾病集以及其对应的概率
W(d,
),W(d,
)
的值越
大
,
表示症状集
S
complai
„
与疾病/的关联度越大
。
其次
,
我们通过
。
5
丽
”
对
D
(
s,
)
中的疾病权重
进行更新.将疾病集和患者预判的疾病进行疾病权
重融合
,
方法如下
:
(
1
)
若
D
cotnpla
,„
中疾病的
d,
在
D(.s,)
中
,
则增加
查询项中该疾病的权重
。
计算方法如下
:
设
W(d,
)
为患者预判疾病在疾病集中对应的
权重值
,
”
,
为患者预判疾病在疾病集中按权重排序
得到的名次。
患者预判的疾病权重如式
(
3
)
所示
。
W'(d,)
=W(d,
)
X
log,",
+
1)
(3)
(
2)
若
D
con
,
plai
„
中疾病的
d,
不在
D(s,)
中
,
本文
考虑了该疾病对导诊结果的影响.将患者预判疾病
加入疾病集.并取所有疾病权重的平均值作为该预
判疾病的权重
,
如式
(
4)
所示
。
W
v
(cJ,)
=
丄
》
W(d,)
(4)
n
最后•我们通过
D(
»)
=
{
〃
】
、
cl
2
,
cl
)
,
…
〉
和
其权重
W(d,
)
计算患者应该去的科室及其权重
。
由于
1CD
疾病丰富
,
区域卫生平台数据中的疾病不
能完全覆盖所有
ICD
疾病
,
因此会导致预测出的疾
病不能够直接连接到科室
。
本文通过以下规则获取
疾病
d,
所连接的科室节点
:
①若/可以直接通过
“
疾病-科室
”
获取科室及其权重
,
则直接返回该疾
病的科室节点
n,
E
N
d
及其权重
Weight
;
6
;
②若
d,
找不到连接的科室
,
则先寻找其子孙节点
,
获取所有子孙节点的科室关系.并取其平均值作为
权重
Weight,
进行返回
;
③若
d,
所有子孙节点均没
有
“
疾病相关科室
”
关系相连
,
则回溯其祖先节点.直
到找到一个祖先节点
nh
有
“
疾病一科室
”
关系
进行返回.并返回其权重
Weight,
ew,
/o
则患者应
该去的科室权重计算如式
(
5)
所示
。
Score
」
=
工
(
W(d,
)
X
Weight
丿)
(5)
dj
e
>
综上
,
本文得出了一组带有权重的科室列表
Departments
=
{
Department,
:
Scorei
,
…
,
Depart
ment
:
Score,,
}
。
对科室列表中与患者性别
、
年龄段
无关的科室去除
。
最后,
对
Score,,
进行排序.从大
到小输出推荐科室结果
,
对概率较低的科室不予
推荐
。
5
实验结果与分析
5.1
实验数据
为了训练实体识别算法
,
本文从医疗问询网站
抽取了
1
640
条问诊主诉数据进行训练
。
该数据集
中
,
男性患者
804
例.女性患者
836
例
;
普通成人
1
181
例
,
儿童
376
例
,
老年
83
例
。
人工标注其中的
症状和疾病实体作为实体识别算法的训练和测试
,
并且将标注出的实体手工归一化到知识图谱的节点
上
,
共标注了
2
435
条实体归一化数据
,
以构建实体
归一化模型的训练集和测试集
。
此外
,
为了实现真实科室情况下的算法评估,
本
文随机采样了医疗网站中患者问询的
200
条数据作
为导诊算法的测试集
。
其中
,
普通成人
、
儿童
、
老人
的数据比例为
171
:
15
:
14
;
通用疾病
、
男性疾病
、
女性疾病比为
135
:
14
:
51
。
对于这批数据推荐科
室的标注.由两位临床医生进行科室标注.每条数据
标注三个以内最适合的科室
。
5.2
实体识别及实体归一化联合算法结果
为了进行患者主诉的症状词和疾病词的抽取
,
本文基于词典特征的
Bi-LSTM
+
CRF
、
残差膨胀神
经网络
、
XLNET
+
CRF
和
BERT+CRF
进行患者
主诉处理
,
实体识别结果如表
1
所示
。
由表
1
结果可得.基于词典特征的
B1-LSTM
+
CRF
取得了
0.74
的
八
值
。
BERT
+
CRF
模型
尺
值取得了
0.83
的好成绩
。
本文的方法将
F,
值提升
1
期
刘道文等
:
基于多源知识图谱融合的智能导诊算法
133
表
1
实体识别结果
Precision
Recall
Fi
基于词典特征的
Bi-LSTM
+
CRF
0.730.760.74
残差膨胀神经网络
0.62
0.33
0.43
XLNET-FCRF
0.52
0.560.54
BERT
+
CRF
0.81
0.85
0.83
本文方法
0.82
0.900.86
到了
0.86,
取得了最好的结果
。实验表明
,
针对图
4
的例子
“
我今年
29
岁了
,
最近一段时间总是感觉身
体有点不正常
,
腹部总是隐隐作痛,
所以想在这咨询
一下医生
,
小腹有些疼痛小便有尿血怎么回事
?
吃
点什么药可以缓解疼痛
?
”
,
用后处理的主诉作为输
入
,
BERT
输出症状词为
“腹部痛
”
“
尿血
”。
如果直
接使用
BERT
进行实体识别操作
,
该例子将会输出
“
不正常
”
“
疼痛
”
和
“
尿血
”
。
其中
“
不正常
”
“
疼痛
”
不
能体现具体的症状信息
。
因此将本文提出的实体识
别算法作为后续实体归一化和导诊算法的前置
工作
。
实体识别后需要将实体与知识图谱中的节点进
行归一化.本文采用了部位制导的医疗实体归一化
算法进行实体与节点的归一化
,
同时对比
BERT,
多
元字符串相似度算法
(Cos-similarity)
和上下位及同
义词识别算法进行实体归一化
,
实体归一化结果如
表
2
所示
。
表
2
实体归一化结果
Precision
Recall
Fi
上下位及同义词识别算法
0.710.650.68
Cos_similarity
0.850.550.67
BERT
0.89
0.68
0.77
本文方法
0.92
0.98
0.94
由表
2
结果可知
,
本文提出的部位制导的医疗
实体归一化算法取得了最优的成绩
。
通过对数据的
分析
,
53.6%
的数据
s,
和
n,
都不包含部位词
,
39.6%
的数据
s,
和"
,
都包含部位词.其他的
6.8%
的数据中
s,
包含部位词而巧不包含部位词
。
在
53.6%
的数据上
,
BERT
算法取得了最好的效果
,
但
本文方法在
39.
6%
和
6.8%
的数据上针对本文做了
处理
,
取得了比其他算法更好的结果
。
结合上述两
个方面的算法
,
本文将实体识别最优的前三个算法
和实体归一化最优的前两个算法进行排列组合
,
分
别通过本文
WBDPMS
算法
+
ICD
融合树进行最终
科室结果的正确性对比
,
找到最适合的实体识别
+
实体归一化算法
,
以此选择最终的实体识别和实体
归一化算法.结果如表
3
所示
。
表
3
实体识别
+
实体归一化结果
实体识别
实体归一化
基于词典特征
BERT+
本文
的
Bi-LSTM
+
CRF
CRF
方法
本文方法
0.80
0.83
0.88
BERT
0.75
0.78
0.80
5.3
科室推荐算法对比
在上一节中.本文使用预滤噪的
BERT
实体识
别和部位制导的医疗实体归一化算法进行最终导诊
算法的前置工作
。
本节通过对比简单的加权求和算
法和本文的
WBDPMS
算法
,
并且考虑权重对推荐
结果的影响。“
症状一疾病
”
关系和
“
疾病一科室
”
关
系上不含权重表示为各条关系的权重相同
。
通过对
比
“症状一疾病
”
和
“
疾病一科室”
都不含权重
、
分别
只有一个关系上有权重和都包含权重
,
对算法结果
进行对比
。
同时
,
为了判断
ICD
疾病层次对结果的
影响
,
本文在数据中是否利用
ICD
层次结构进行算
法优化进行对比
。
实验结果如表
4
所示
。
表
J
导诊算法结果
重设置
“
症状一疾病
”
权重
无
有
无
仃
算法
“
疾病一科室
”
权重
无
无
有
有
加权求和算法
0.54
0.610.640.71
加权求和算法
+
ICD
融合树
0.71
0.760.790.80
本文
WBDPMS
算法
0.61
0.65
0.67
0.72
本文
WBDPMS
算法
+
ICD
融合树
0.75
0.800.82
0.88
结果显示
,
两种关系权重都能带来一定的精确
率提升,
“
症状一疾病
”权重可以通过症状在不同疾
病上的特征性不同以提高预测疾病的准确性
,
“
疾
病一科室
”
权重通过不同科室对相同疾病治疗的权
威性进行优化。
WBDPMS
算法在各种权重设置情
况下均比加权求和算法精确率更高
,
且包含的权重
越多提升越显著。
同时
,
由于
ICD
疾病层次可以使
未链接到科室的疾病节点找到适合的科室
,
预测效
果比没用
ICD
疾病层次的效果更优
。
134
中文信息学报
2021
年
6
结论与未来工作
本文实现了一个基于症状一疾病一科室一医院
知识图谱的智能导诊平台
,
解决了主诉识别
,
图谱知
识表示与多源图谱融合等难点问题•推荐正确率达
到了
0.88,
并在区域卫生平台成功上线。
在未来的
工作中.我们将通过引入对话系统
,
增强患者与系统
之间的交互
。在一次问询之后
,
系统将主动询问患
者可能患有的其他症状.做进一步的鉴别诊断.以提
高推荐的精度
。
参考文献
[1]
马锤
,
张岩
,
王宏志.等.面对智能导诊的个性化推荐算
法
[J].
智能系统学报
,
2018.
13(3)
:
352-358.
[2]
梁璐.基于
VSM
权重改进算法的智能导医系统研究
[D].
郑州
:
郑州大学硕士学位论文
,
2014.
[3]
徐奕枫.刘利军
,
黄青松.等.智能导医系统中
TF-
1DF
权重改进算法研究
[J].
计算机工程与应用
,
2017,23(4)
:
238-243.
[4]
Niu
X
,
Sun
X,
Wang
H,
et
al.
Zhishi.
me-weaving
Chinese
linking
open
data[C]//Proceedings
of
the
10th
In
ternational
Semantic
Web
Conference.
Springer,
Berlin.
Heidelberg*
2011
:
205-220.
[5]
Wang
Z,
Li
J
,
Wang
Z,
et
al.
XLore
:
A
large-scale
English-Chinese
bilingual
knowledge
graph[C]//Pro
ceedings
of
the
12th
International
Semantic
Web
Con
ference
(
Posters
&
Demos)
.
2013»
1035
:
121-124.
[6]
于彤
,
苏大明
,
尹仁芳
,
等.中医药知识服务平台构建的
研究
[J].
中国医学创新
,
2014(15):120-123.
[7]
Yu
T
,
Li
J
,
Yu
Q.
et
al.
Knowledge
graph
for
TCM
health
preservation
:
Design,
construction,
and
appli-
cationsf
J
].
Artificial
Intelligence
in
Medicine*
2017»
77
:
48-52.
[8]
Qiu
J
,
Zhou
Y
,
Wang
Q
・
et
al.
Chinese
clinical
named
entity
recognition
using
residual
dilated
convolutional
刘道文
(
1995 ).
硕士研究生
,
主要研究领域为
知识图谱
、
图数据库
。
:
*******************
n
张晨童
(
1995-
),
硕十研究生
,
主要研究领域为
知识图谱
。
:
chentong_zhang@
neural
network
with
conditional
random
field[J].IEEE
Transactions
on
NanoBioscience,
2019,
18(3)
:
306-
315.
[9]
Wang
Q.
Zhou
Y,
Ruan
T,
et
al.
Incorporating
dic
tionaries
into
deep
neural
networks
for
the
Chinese
clinical
named
entity
recognition
[
J
].
Journal
of
Bio
medical
Informatics*
2019,
92
:
103133.
LlOj
Gong
C,
Tang
J
,
Zhou
S,
et
al.
Chinese
named
entity
recognition
with
Bert
[
J
].
DEStech
Transactions
on
Computer
Science
and
Engineering
»
2019
:
33299.
[11]
Wang
Q,
Wang
T,
Xu
C.
Using
a
knowledge
graph
for
hypernymy
detection
between
Chinese
symptoms
[C]//Proceedings
of
the
10th
Inter
national
Confer-
ence
on
Advanced
Computational
Intelligence.
IEEE,
2018
:
601-606.
[12]
Zhang
J,
Wang
Q,
Zhang
Z,
et
al.
An
effective
standardization
method
for
the
lab
indicators
in
re
gional
medical
health
platform
using
n-grams
and
stackingCCH
//
Proceedings
of
the
2018
IEEE
Interna
tional
Conference
on
Bioinformatics
and
Biomedicine.
IEEE,
2018
:
1602-1609.
[13]
Devlin
J,
Chang
M
W
,
Lee
K,
et
al.
Bert
:
Pre-train
ing
of
deep
bidirectional
transformers
for
language
understandingCJ].
arXiv
preprint
arXiv
:
1810.04805,
201&
[14]
Vaswani
A
,
Shazeer
N,
Parmar
N,
et
al.
Attention
is
all
you
needEC]//Proceedings
of
the
31st
Internation
al
Conference
on
Neural
Information
Processing
Sys
tems,
2017
:
6000-6010.
[15]
Huang
Z,
Lu
X,
Duan
H,
et
al.
Collaboration-based
medical
knowledge
recommendation]J].
Artificial
In
telligence
in
Medicine*
2012,
55(1)
:
13-24.
[16]
Thong
N
T.
Intuitionistic
fuzzy
recommender
sys
tems
:
An
effective
tool
for
medical
diagnosis
C
J
].
Knowledge
Based
Systems
.
2015,
74
:
133-150.
[17]
阮彤
,
孙程琳
,
王昊奋
,
等.中医药知识图谱构建与
应用
[J1
医学信息学杂志
,
2016,
37(4)
:
8-13.
口
8]
阮彤
,
王昊奋.基于本体的医疗健康语义知识库构建
EJ1
中国信息界
(
e
医疗
),
2014
(6)
:
47.
阮彤
(
1973
),
通信作者.博士•教授•主要研究
领域为自然语言处理
、
知识图谱
、
数据质量评估
。
:
******************.cn
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712954241a2154865.html
评论列表(0条)