国内LDA模型研究现状可视化分析

国内LDA模型研究现状可视化分析


2024年4月25日发(作者:)

2020

11

Nov.

2020

情报探索

Information

Research

11

(

277

)

No.

11(Serial

No.

277)

国内

LDA

模型研究现状可视化分析

*

陈博

1

马秀峰

2

1.

曲阜师范大学传媒学院

山东日照

276826

2.

曲阜师范大学继续教育学院山东曲阜

273165

目的

/意义

旨在对今后我国

LDA

模型研究提供指导

方法

/

过程

利用文本挖掘方法及可视化研究工具

Citespace

CNKI数据库中

2009—

2019

年发表的有关

LDA

模型研究的

357

CSSCI

期刊论文

从发表年份

作者

作者机构及

关键词等几个方面进行计量分析

结果

/

结论

我国

LDA

模型研究在近

10

年一直呈现岀上升趋势

,

处于发展阶段

在未来仍

有较大的发展空间

国内研究人员及团队的研究较为分散

没有形成较大的合著网络并且在研究主题上过于单一

;

研究大多集

中在算法和模型的开发上

较少涉及在线文本数据方面的应用研究

,但随着互联网技术的发展社会网络分析逐渐成为研究热

,

过多集中于模型和算法上的状况有所好转

;

大数据与

LDA

模型进一步融合将是未来的发展方向

关键词

LDA

模型

;

热点主题

;

研究现状

;

Citespace

中图分类号

G350

文献标识码

:

A

doi

10.3969/j

.issn.1005-8095.2020.11.019

Visualization

Analysis

of

the

Status

Quo

of

Researches

on

LDA

Model

in

China

Chen

Bo

1

Ma

Xiufeng

2

(1.

School

of

Communication,

Qufu

Normal

University,

Rizhao

Shandong

276826)

(2.

School

of

Continuing

Education,

Qufu

Normal

University,

Qufu

Shandong

273165)

Abstract

:

[

Purpose/significance

]

The

paper

is

to

provide

guidance

for

the

future

LDA

model

research

in

China.

[

Method/

process

]

The

paper

uses

text

mining

method

and

visualization

tool

Citespace

to

make

a

biblimetric

analysis

of

357

CSSCI

articles

on

LDA

model

published

in

CNKI

database

in

2009

2019

from

the

aspects

of

publication

year,

author,

author

institution

and

keywords.

[

Re

­

sult/

conclusion

]

The

LDA

model

research

in

China

has

been

showing

an

upward

trend

in

recent

ten

years,

is

in

the

development

stage,

and

there

is

still

a

large

space

for

development

in

the

future.

The

research

of

domestic

researchers

and

teams

is

relatively

scattered,

and

there

is

no

large-scale

coauthored

network,

and

the

research

topic

is

too

single.

Most

of

the

research

focuses

on

the

development

of

algo

­

rithms

and

models,

less

on

the

application

of

online

text

data,

how-ever,

with

the

development

of

Internet

technology,

social

network

a

­

nalysis

has

gradually

become

a

research

hotspot,

and

the

situation

of

too

much

focus

on

models

and

algorithms

has

been

improved.

Fur

­

ther

integration

of

big

data

and

LDA

models

will

be

the

future

development

direction.

Keywords

:

LDA

model

hot

topic

research

status

Citespace

0

引言

题结构的途径之一

,

LDA

模型作为一种对文本信息

进行语义抽取的主题模型

为科研人员进行文本主

随着互联网技术的发展,互联网上的数据呈指

数式增长

科研人员如何从这些海量文献中全面

题挖掘提供了一种新方法

LDA

模型广泛应用于文

本信息检索

2

主题发现和演化⑶

图像处理

4

准确地识别出研究主题

并探索其演化趋势

直以来都是情报学的研究重点茁

而文本挖掘技术

类⑸

推荐系统⑷

过滤系统⑴

预测系统⑻

资源

是帮助科研人员从海量非结构化文献中发现新兴主

标识

9

等诸多领域

国内学者对

LDA

模型进行了

收稿日期

:

2020-03-26

*

本文系国家社会科学基金一般项目

面向知识流分析的中文文本主题生成模型构建及应用研究

项目编号:18BTQ069

作者简介

:

陈博(

1993—

,

2019

级硕士研究生

,研究方向为图书馆知识服务

;

马秀峰

1963

,

硕士

教授

研究方向为图

书馆知识服务

128

2020

年 11

陈博等

:

国内

LDA

模型研究现状可视化分析

11

277

比较深入的研究

已取得了较为丰富的研究成果

为了厘清国内

LDA

模型研究的发展脉络

本文对中

Citespace

中能够识别和分析

1.2

研究方法

国知网

CNKI

期刊数据库中

CSSCI

期刊论文的发

本文采用科学文献计量的方法

使用文本挖掘及

可视化研究工具

Citespace

绘制科学知识图谱

展示

表年份

作者

作者机构及关键词等进行计量分析

,

并形成可视化图谱

直观清晰地展现出国内

LDA

型当前的研究现状

以期对今后我国

LDA

模型的研

究提供指导

LDA

模型研究中各个知识单元之间的关联,

从论文作

机构

关键词等维度进行可视化分析

发现国内

LDA

模型研究的演进历程

热点主题及发展趋势

2

研究结果及分析

1

研究设计

1.1

数据来源

本文的文献数据样本来源于中国知网

CNKI

期刊数据库

检索主题设置为

LDA

LDA

LDA

主题模型

主题模型

来源类别选

2.1

描述性统计

2.1.1

研究论文年度分布

一个学科或领域的文献数量在不同时间段的分

布在一定程度上可以反映出这个学科的发展速度及

其当前所处的发展阶段

帮助我们能够从整体上把

CSSCI

进行检索

时间设置为

2009

2019

索时间截至

2019年

11

22

共检索到

358

篇相

握国内

LDA

模型研究的发展脉络

[10]

o

本文选取

2009

2019

年国内有关

LDA

模型的

357

CSSCI

关文献

剔除通知

报告等无关样本后

,

最终确定

357

篇为有效论文

将这

357

篇论文从中国知网中导出

并保存

文件格式为

Refworks,

方便数据导入

期刊论文进行年度发文量统计

绘制了图

1

所示的

折线图

+

发表

Affifi

1

国内

LDA

模型研究论文年度分布图

从图

1

可知

10年国内

LDA

模型的相关研

究一直呈上升趋势

特别是在

2016

2017

年间增长

2.1.2

研究论文来源期刊及学科分布

通过对文献来源期刊进行分析

,

可以发现相关

率较高

增长速度较快

,2017

2018

年间增长速度稍

有趋缓

但在2019

年又有了较大的提升

整体来

研究主题的学科范围

以有利于研究者确定自己的

研究方向

[11]

o

LDA

模型作为一种挖掘文本主题的

国内

LDA

模型的研究呈上升趋势

仍处于持续

发展的过程中

这也从侧面说明了研究人员利用

LDA

模型对文本信息进行挖掘

,

发现其中主题演化

趋势仍然处于不断发展过程中

对文本主题的研究

也将一直是研究人员研究的主要内容

今后如何更

模型工具

通过对其来源期刊及学科范围进行统计

不仅有利于研究者确定自己的研究方向

也能帮助

我们了解

LDA

模型广泛应用到哪些领域

对其当前

使用情况及使用范围有更清晰的了解

通过对样本

论文进行期刊来源统计发现

排名前五位的期刊依

次是

数据分析与知识发现

75

图书情报工

好地扩展

LDA

模型

使其更有针对性地应用到文本

挖掘研究中

,

仍需要研究人员投入其中进行研究

使其逐步走向理性

49

、《

情报科学

》(

38

情报理论与实

37

情报杂志

34

,

占总发文量的

129

2020

年 11

情报探索

11

277

73.07%,

如图

2

所示

MII8M5F

ttlBft*

ta«TM

■代

fan

■«««*

flSR

■■■■18

■««««

■电

MMV«MR

iM4oni

U4

l

>21>

I

BKtlieia

识■

BUtMUUR

1/2

2

国内

LDA

模型研究论文来源期刊分布

通过进一步对样本进行学科范围内的统计发

发文量排名前五位的学科领域依次是计算机

内对于

LDA

模型的研究主要集中在计算机和图书

情报档案领域

但随着学科交叉渗透

学科的主题

121

图书情报档案

116

、新闻传播

52

科学学与科技管理

18

)、

社会

10

),

占总

结构会变得越来越复杂

学科的主题揭示也越发困

如何清晰有效地揭示学科主题

LDA

模型研

究主题更加有效

也是研究者在应用模型过程中需

要解决的问题

发文量的

83.65%

如图

3

所示

从样本论文期刊分

布图和样本论文学科分布图的集中度

可以看出

3

国内

LDA

模型研究论文学科分布图

2.1.3

研究论文机构分布

武汉大学

57

南京理工大学

22

中国科学

对发文机构进行统计可以帮助我们了解学术研

究的核心机构和前沿阵地

通过对样本论文的发文

院大学

19

华中师范大学

17

北京工业大

14

和南京大学发文量

14

,

占总发文量

4

国内

LDA

模型研究论文机构分布图

130

2020

年 11

陈博等

:

国内

LDA

模型研究现状可视化分析

11

277

从图

4

可知

国内

LDA

模型研究论文发文量排

名靠前的机构基本上都是图书情报学科发展比较好

的大学

其中武汉大学以较为领先的优势排在发文

我们了解该领域的核心科研团队及研究主题

对把

握该领域的发展状况具有重要的意义

利用

Citespace

对样本论文进行合著者网络分析和聚类

,

量第一名

可见武汉大学是目前国内

LDA

模型研究

比较核心的机构

每个类别以出现频次较高的关键词进行标注

,

便可

以得到发文量较高的研究团队及研究主题

如图

5

所示

2.2

作者合作网络

对相关论文的作者合作网络进行分析可以帮助

5

国内

LDA

模型研究文献合著者网络图

从图

5

可以看出

,

目前国内对

LDA

模型研究排

名前五的研究团队分别是李湘东团队

王曰芬团队

行时间线程的可视化分析

如图

6

所示

可以帮助研

究者从时间维度上把握

LDA

模型研究团队及相应

马静团队

唐小波团队

黄莉团队;但研究团队间的

合作不够密切

,

没有形成较大的合著网络

,

并且通过

出现频次较高的关键词进行标注只得到

文本分类

主题的转移或变化

从图

6

可以看出

科研人员对

LDA

模型的文本分类研究主要集中在

2014

2017

在研究主题上同样存在研究相对单一的情况

一个标签

;

虽然

LDA

模型在对文本信息进行语义抽

、主题发现和主题演化等方面具有广泛应用

但目

前国内研究团队对其研究的主题还比较单一

由于

LDA

模型具有良好的扩展性

能够根据不

同情况需要对模型进行扩展延伸

国内学者虽然对

LDA

模型进行了深入研究

但主要还是将

LDA

模型

应用到文本信息的挖掘上

应用到音频

视频

图像

等信息形式上的研究也有不少

但还未形成规模

随着

5G

时代的到来

,

以视频和音频形式呈现给用户

的短视频和播客也迅速升温

因此

如何利用

LDA

模型从视频

音频中挖掘蕴含其中的主题

并且做到

对用户进行精准推荐

有待研究团队进一步扩展研

究主题

并在研究中扩大其应用范围;

另外

,

学科间

交叉渗透情况的深入伴随着主题挖掘的难度将进一

6

国内

LDA

模型研究文献作者主题时间线程图

2.3

关键词分析

2.3.1

高频关键词分析

LDA

模型研究论文的关键词进行统计分析

能够发现

LDA

模型研究的核心内容和热点主题

步加大

加强研究团队间的合作以及不同领域的研

究团队间的合作也是有效获取主题的途径

此外

利用

Citespace

对研究团队及研究主题进

本文对国内

LDA

模型研究论文的关键词进行统计

分析

选取了词频大于

2

的关键词

利用

Citespace

其进行中心度计算

如表

1

所示

从表

1

可以看出

131

2020

年 11

情报探索

11

277

在除去搜索的关键词主题模型

LDA

LDA

模型及

LDA

主题模型后

,

排在前面的依次是主题演化

文本挖掘

文本分类

网络舆情

主题挖掘

主题

2.3.2

共词分析

共词分析法属于内容分析法的一种

通常用来

分析某一学科或研究领域内不同专业词汇在同一篇

文章里的共现情况

其共现频次和关联程度呈正相

发现

社会网络等词汇

基本上反映了

LDA

模型研

究的核心主题

1

国内

LDA

模型研究文献关键词词频中心度表

能够反映出该学科或领域的研究热点和发展趋

12

o

为了反映各个关键词之间的核心主题

本文

对关键词进行了共现分析

如图

7

所示

节点年轮

序号

关键词

频次/

98

中心度

首次出现年份

2012

2012

1

2

主题模型

0.75

LDA

LDA

模型

LDA

主题模型

主题演化

微博

64

47

25

18

15

12

12

0.50

0.45

3

2013

2015

2014

2012

2016

2014

的厚度和相应时间段内关键词数量成正比

节点之

间连线的粗细能够帮助我们理解不同主题之间关联

4

5

6

7

8

9

10

0.30

0.05

0.01

0.07

0.13

0.08

0.07

的强度

节点与节点之间连接的趋势和所处位置也

能够反应关键词的发展趋势以及研究热点的态势

从图

7

可以看出

,

除了节点较大的几个关键词节点

文本挖掘

文本分类

网络舆情

主题挖掘

9

9

2015

2015

2014

2016

从节点间连线的发展态势上判断

社会网络分

知识结构

话题演化

词向量

等连线较粗且

发展态势呈现向外延展的词也是近年来新出现的研

11

12

主题发现

社会网络

8

0.06

0.07

7

究热点

__

"Ft

*

.可懸

主題潮礦酵

W

J5

布斯采恪

洋醮型

/a

主题模型

知识流

S!

扁甜会斎殛

_

*

-fntan

馳度

主题抽取酬究那点

主■识踌

.科

学文歐

1

牲会网络分析

3MA

7

国内

LDA

模型研究论文关键词共现网络图谱

在国内

LDA

模型研究论文高频关键词共现网

络细化图谱

见图

8

共现频次较高的节点会自

大数据

概念从

2008

8

月明确提出到如今

动聚成一团

表示关键词之间的联系比较密切

共同

反映同一个主题

关键词之间连线的粗细反映关键

已逐渐渗透到各行各业

,

甚至在

2020

年新型冠状肺

炎疫情期间,新闻中能明确看到

大数据

找人

词共现的强弱

,

研究趋势

框架理论

社会化标

WI-LDA

语义分析

科学前沿

大数据

数据

追踪等关键词出现

可见与

大数据

相结合

是未来各行业

各领域的发展方向

崔金栋等

13

关键词与主题模型有着较强的联系

吉布斯采样

关联规则

卷积神经网络

文本分类

词向量

于大数据融合

LDA

主题模型探索微博信息推荐方

,

提升了前端数据查全率和数据处理效率

,

推荐精

大数据

等关键词与

LDA

模型有着较强的联系

;

微博

文本聚类

政策文本

专利主题分析

k-mean

主题提取

”“

大数据

等关键词与

LDA

极强的联系

从图

8

可以看出

3

个关键词

主题模

准度

钱旦敏等

14

基于

LDA

主题模型结合大数据

对信息服务文献主题提取与演变进行了研究

综上

在大数据的背景下

我们需要面对的是海

量的非结构化的数据

,

而这些数据不仅仅是文本

有视频

音频

图像等

如何将

LDA

模型与大数据

LDA

模型

LDA

都与

大数据

”有较强的联

132

2020

年 11

陈博等

:

国内

LDA

模型研究现状可视化分析

11

277

8

国内

LDA

模型研究论文高频关键词共现网络细化图谱

相结合

从非结构化的数据中挖掘出蕴含其中的主

题及其主题演化越来越受关注

在大数据背景下,

国内

LDA

模型的研究也在不断扩大其在应用方面

的范围

因为大数据不仅仅包括文本数据

,

还有音频

数据

视频数据

图像数据

结合

LDA

本身良好的扩

展性,可以进行推荐系统应用研究

预测应用研究

过滤应用研究

图像处理应用研究等

进一步开发

4

个关键词从时间维度上呈现逐渐发展的过程

2016

年出现

大数据

概念后

LDA

模型研究范

围扩展到了社会网络分析

9

中同样值得让人注意的关键词是

情感分

所谓

情感分析

就是通过识别和提取给定的

文本语义的取向

从而判断用户的情感信息

15

o

情感分析

最早出现在对电影评论文本情感倾向性

LDA

模型在应用方面的价值

既是

LDA

模型未来发

展趋势

也是使其不断走向理性的方向

2.3.3

关键词热点时区分析

关键词热点时区分析图是用来展现一个学科或

领域的关键词在不同时段上的分布和变化情况

,

分类的研究中

16

,随着互联网技术和数据挖掘技术

的快速发展

,

关于情感分析的研究成果不断涌现

呈现出一定的研究主题和发展趋势

对情感分析的

应用也从电影行业更多地被应用到电商行业

电商

在面对用户群体时更希望对用户做到精准服务

且将自身对用户的关注焦点放到了用户需求上

,

够帮助我们从时间维度上把握

LDA

模型研究的热

点主题变化趋势

12

o

这对有效把握某个领域的发

展状况与趋势具有重要意义

国内

LDA

模型研究

论文关键词热点时区如图

9

所示

从图

9

可以看

LDA

模型研究的关键词在不同时段的发展过程

,

本文

LDA

主题模型

LDA

模型

LDA

主题模

通过扩展

LDA

模型可以更有效地实现情感分析

,

够更准确地定位用户并把握用户情感变得极为重

从时区图中也能看出这一关键词在整个

LDA

型发展中呈现出的一种发展态势

9

国内

LDA

模型研究论文关键词热点时区图

133

2020

年 11

情报探索

11

期(

277

)

3

研究总结

为了厘清国内

LDA

模型研究的发展脉络

本文

CNKI

收录的

2009

2019

(

检索时间为

2019

11

22

)

357

CSSCI

期刊论文为数据源

用科学文献计量研究方法

使用

Citespace

对国内

LDA

模型研究的相关论文进行了知识图谱分析

究结论为

(1)

通过论文的数量统计发现

10

年国

LDA

模型的相关研究一直呈上升趋势

特别是在

2016

2017

年间增长率较高

增长速度较快

目前处

于发展阶段

在未来仍有较大增长的空间

此外

关研究多集中在计算机

图书情报领域

说明

LDA

模型在信息学

图书馆学等社会科学研究中也起到

了重要作用

研究机构也多集中在图书情报学科实

力较强的院校机构

如武汉大学

南京理工大学

中师范大学

中国科学院大学等

(

2)

通过作者合作

网络可以发现

目前相关作者和研究团队对

LDA

型的研究较为分散

没有形成整体上较大的合作合

著网络

并且研究团队在研究主题内容上相对单一

(3)

通过对关键词进行高频关键词分析

共现分析和

热点时区分析

可以发现

LDA

模型研究在不同阶段

有不同的研究重点

研究重点也呈现出一种逐渐生

长的状态

从关键词共现分析

热点时区分析结合

作者合作网络来看

可以进一步发现

国内对于

LDA

模型的研究大多集中在开发新的模型和算法上

少涉及在线文本数据方面的应用

(

4)

大数据与

LDA

模型的进一步融合是未来的发展方向

参考文献

[1]

马秀敏

.

中国典型管理期刊文献主题发现与演化

分析

[D].

大连:

大连理工大学

,2011.

[2]

唐晓波

房小可

.

基于文本聚类与

LDA

相融合的

微博主题检索模型研究[J].

情报理论与实践

,2013,36(8)

:

134

85-90.

[3]

吴查科

王树义

.

基于

LDA

的国内图书馆学研究

主题发现及演化研究

[J].

新世纪图书馆

,2019(7)

90-96.

[4]

曾培龙

.

基于概率主题模型的图像场景分类研究

[D].

桂林

:

广西师范大学

,2015.

[5]

宿青

.

基于

LDA

模型的聚类检索应用

[J].

中国新

通信

2017:19(5)

:39-40.

[6]

卢盛祺

管连

金敏

.

LDA模型在网络视频推

荐中的应用

[J].

微型机与应用,2016,35(11)

74-79.

[7]

寇晓淮

程华

.

基于主题模型的垃圾邮件过滤系统

的设计与实现

[J].

电信科学

,2017,33(11)

73-82.

[8]

张小平

周雪忠

,

黄厚宽

.

一种改进的

LDA

题模型

[J].

北京交通大学学报

,2010,34(2):111-114.

[9]

胡秀丽

.

基于

VSM和

LDA

模型相结合的微博话

题漂移检测[J].

兰州理工大学学报

,2015,41(5):104-109.

[

10]

CHEN

C

C

TSENG

Y

D.

Quality

evaluation

of

product

reviews

using

an

information

quality

framework

[

J]

.

De­

cision

Support

Systems

,2011

50(

4)

:755-68.

[11]

胡德华

种乐熹

.

国内外学科馆员研究的可视化分

析与比较

[J].

图书馆理论与实践

,2015(6)

36-41.

[12]

冯亚飞,

胡昌平

李霜双

.

国内学术资源研究的知

识图谱与热点主题

[J].

情报科学

,2019,37(10)

3-7,19.

[13]

崔金栋

杜文强

,

关杨

.

基于大数据与

LDA

融合

的微博信息推荐方法研究

[J].

情报科学

,2018,36(9):27-

31,76.

[14]

钱旦敏

郑建明

.

基于

LDA

主题模型的信息服务

文献主题提取与演变研究

[J].

数字图书馆论坛

,2019(10)

:

16-22.

[15]

何伟林,

谢红玲

,

奉国和

.潜在狄利克雷分布模型

研究综述

[J].

信息资源管理学报

,2018,8(1)

55-64.

[16]

周建

刘炎宝

,

刘佳佳

.

情感分析研究的知识结构

及热点前沿探析

[J].

情报学报

,2020,39(1):111-124.


发布者:admin,转转请注明出处:http://www.yc00.com/news/1713982410a2357474.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信