基于犯罪模糊数据库的知识发现

基于犯罪模糊数据库的知识发现


2024年4月23日发(作者:)

2 01 1年5月 

辽 宁 警 专 学 报 

JOURNAL OF LIA0NING POLICE ACADEMY 

May 2 01 1 

第3期(总第6 7期) 

NO.3(Sum.6 7) 

基于犯罪模糊数据库的知识发现 

陶卫东 

(辽宁警官高等专科学校公安信息系,辽宁大连116036) 

摘 要:根据模糊数据库的理论研究及实际开发状况,对犯罪模糊数据库中知识发现 

的几个问题进行了探讨。研究表明,模糊关系数据库是开发不确定性系统的非常重要的工 

具。文中指出,模糊算法和计算机语言的有机结合,会产生程序的学习系统,最后描述了 

个基于模糊犯罪数据库的知识发现算法。 

关键词:警用数据模型,模糊数据库,犯罪知识发现,模糊学习算法 

中图分类号:D9l7.6 文献标识码:A 文章编号:1008—5378(2011)-0063-05 

从警用信息获取的意义上来看,由于公安数 

据库管理系统的广泛应用,警方积累的犯罪以及 

数据库系统,是查询还是挖掘,例如,一般情况 

下通过数据库查询语言可以在警用数据库中提 

取如下信息。 

・在过去的一个时期内流动人口盗窃犯罪 

案件的情况列表; 

与其相关的数据越来越多。在获取的数据背后隐 

藏着许多重要的信息,人们希望能够对其进行更 

高层次的分析,以便更好地利用这些数据,为社 

会的安全防范和破获犯罪案件提供帮助。目前的 

・本地区内年龄在30岁以下的男子具有至 

少一次犯罪记录的数量列表; 

・由于安全防范管理水平较差造成不应该 

发生治安案件的种类列表; 

・通过互联网发生女子不良行为受骗被害 

的犯罪记录列表。 

警用数据库系统可以高效地实现各种数据的录 

入、查询、统计等功能,但无法发现数据中存在 

的关系和规则,无法根据现有的数据预测未来的 

犯罪模式。缺乏挖掘数据背后隐藏的知识手段, 

造成了数据库的资源浪费。我们所关心的是隐含 

(Hidden knowledge)知识的获取,并且最终是 可以得出,传统数据查询得到的是数据直接 

意义上的结果,虽然这些查询结果可以为警方提 

供具有一定价值的决策信息。但是,它仅仅反映 

要计算机掌握的一种学习能力,通过计算机获 

取。所谓隐含知识表示数据中的模式或规则,这 

些模式或规则不容易用数据库查询语言查询出 

来。然而,数据挖掘与知识发现则是解决这一问 

了基于数据意义上的一些事实,实际上,我们所 

要了解的是这些事实的特征和模式,它是真正意 

义上的决策信息。从如下几个例子告诉我们解决 

隐含意义上的数据分析是数据挖掘而不是数据 

查询。 

题的有效途径。本文基于模糊犯罪数据库的开 

发,对警用知识发现方法进行了分析与探讨。 

警用知识发现的意义 

・流动人口盗窃犯罪行为的特征文件; 

・给出犯罪惯犯与有可能从事犯罪行为的 

人的划分; 

在对文献[3]犯罪数据挖掘基本方法分析的 

基础上,我们得到了这样的启发,面对一个犯罪 

收稿日期:2O1卜3—12 

作者简介:陶卫东(1 959-),男,辽宁大连人,副教授,硕士。研究方向:自动控制。 

63 

辽宁警专学报 2011年第3期 

・判断一个被释放人什么时候可能会再次 

犯罪; 

等方法为客观事物的描述提供了有效的工具,犯 

罪模糊数据库研究主要有两个方面,首先是如何 

・发现犯罪现场勘查数据的模糊信息分类。 

传统的数据查询可以对以上的问题完成一 

些基础性的工作,但数据挖掘使我们的信息分析 

建立模糊数据库,即在数据库中如何组织和存放 

与社会犯罪有关的模糊数据;其次是库中各种模 

糊数据的表示形式,如模糊区间数、模糊中心数、 

模糊集合数和隶属函数等,从而定义各种运算建 

立模糊数据上的函数;达到对各种规范的模糊数 

能力向前迈进了一步,它将提供潜在具有一定效 

用的知识,这些效用是通过数据挖掘不仅让我们 

知道了,数据表达了什么,更有意义的是告诉我 据进行操作和运用。 

们数据挖掘能够做什么。 (二)模糊关系数据模型 

随着警用数据库技术的不断发展及数据库 模糊关系数据模型是一般关系模型的一个 

管理系统的广泛应用,犯罪数据库中存储的数据 最简单的推广,模糊关系是表示犯罪案件中一种 

量急剧增加。但目前警用数据库系统中数据的开 

最基本的表示方式。因为在刑事侦查中一个犯罪 

发应用主要是在于数据的检索和查询而隐藏在 

嫌疑对象总可以通过其各种属性来描述,如: 

数据库中丰富的、有价值的信息远远没有得到充 对象:(属性1,属性2,…,属性1"1) 

分的挖掘和利用,为了提取这些隐含的、事先未 嫌疑对象:(姓名,性别,年龄,…) 

知的、潜在有用的犯罪信息,以满足警务实际工 

无名尸体的外貌特征:身高,性别,胖度, 

作中的需要,警用数据库中的犯罪知识发现即 脸型,等等(其中不同的属性有不同的取值范 

CKDCD(Crime Knowledge Discovery in Crime 

围)。于是,一个具体的对象就可用一个记录来 

Database)将会得到快速的发展。这里提出 

表示。其中属性值有的是精确值,有的可能是模 

KDFCD(Knowledge Di scovery in Fuzzy Crime 

糊值。此外,每个记录还可添加一个属性值—— 

Database)概念和技术,并给出了犯罪模糊数据挖 隶属度。它在不同场合可用来表示该记录所表达 

掘CFDM(Crime Fuzzy Data Mining)的算法,它 

数据的置信度、重要性、模糊度或可见度等等。 

能有效地从犯罪模糊数据库中挖掘出有价值的、 

定义1.设 是一个犯罪模糊数据,用二元 

公安人员感兴趣的案件知识。 

组 : ,b}表示,其中c为 的内容,b为 中 

所有模糊词的量化词,且b [0,1】。 

二、犯罪模糊数据库 

例如, 表示“很可能出现抢劫案件”,用 

在对犯罪数据挖掘的研究中,我们发现,犯 

二元组表示为 =(出现抢劫案件,0.90), 

罪模糊信息的描述与处理是一个非常普遍的问 

定义2.设 =c,b}是一个犯罪模糊数据, 

题,尽管有些研究者对模糊数据库进行过初步的 

给定 ∈【0,1],如果b>a,则称 为口一发生,其 

研究 曲j,但是还不能有效的应用于实际。 

中 由犯罪研究领域专家给定。 

(一)模糊数据库的概念 

定义3.设模糊数据X= 6}为口一发生,则 

模糊数据库,是指能够处理模糊数据的数据 

为 一发生的可信度Belie f(x)定义为:Belie 

库。传统的数据库是基于二值逻辑并且处理精确 

f(X):b. 

的数据,回避了许多模糊不清的事情。随着模糊 

定义4.设Xl=(cI,61), =(C2 b2),…,X ( , ) 

数学理论体系的建立,人们可以用数量来描述模 

是n个犯罪模糊数据,给定b 【O,1],如果 

糊事件并能进行模糊运算。这样就可以把不完全 

min{b ̄, ,…, }>a,则称 l, 2,…, . 

性、不确定性、模糊性引入数据库系统中,从而 

为a~发生, 其a一发生的可信度 

形成模糊数据库。 

Belie(X1, 2,…X}=min{bI,b2,…, }。其中a由专 

犯罪模糊数据库是犯罪信息在计算机中的 

家给定。 

抽象描述。是犯罪信息中的各个项目或它们之间 

定义5.设x是犯罪模糊关系,中的一个犯 

的相互关系的形式表示,是各种犯罪信息的载 

罪模糊模式,m为r的总元组数, 为r中的元 

体。数据库理论中已经有各种形式的代数或逻辑 

组,i=I,2,…,m,2"i( )表示模糊模式 在元组f, 

64 

上的值,如果f ) 一发生的次数k(k≤m),则 

模糊模式 的可信度定义为: 

Belie f(X)={Belie f(1"1( ))+ 

Belie f(2"2( ))+…+Belie f(rm( )))/k 

定义6.模糊关系r中的模糊关联规则的 

y可信度定义为: 

Belie f(X Y)=Belie f( u】,). 

定义7.模糊关系r中的模糊关联规则 

y的 一支持定义为: 

a--Support( -÷y):a--Support(Xu,,) 

定义8.模糊关系r中的模糊关联规则 

y的置信度定义为: 

Confidence( —}y)=a Support( uy)/ 

a--Support(X) 

定义9.设 】,是模糊关系r中的模糊关 

联规则,r中的最小置信度为minconf,如果 

Confidence(X y)>minconf,则称模糊关系r 

中的模糊关联规则 】,为有效规则,其信度 

CF(X 】,)定义为min{Belief(X一】,),confidence 

( y),简记为CF. 

知识发现的基本算法 

(一)基本概念 

般情况下,我们可以把犯罪模糊数据库中 

的知识发现即KDCFD定义为:从大量犯罪模糊 

数据中提取新颖的、有效的、带信度的、并能被 

警方所理解的犯罪模糊模式的处理过程。这种处 

理过程是非平凡的过程。其中犯罪模糊模式是指 

带可信度的犯罪模式。 

给定犯罪数据库中的一个案件(数据)集C, 

以及一个描述案件的语言L,一个犯罪模式P就 

是L中的一个陈述,用来描述C的一个子集C 

中的关系,并使得P要易于对c 中所有事实的 

简单枚举。我们对KDFCD定义如下: 

定义5.KDFCD是从大量犯罪模糊数据中 

提取新颖的、有效的、可信的、并能被警方理解 

的犯罪模式的处理过程,这种处理过程是非平凡 

的过程。 

KDCFD也是一个多步骤的处理过程,主要 

包括以下步骤: 

f1)犯罪模糊数据准备。选择犯罪模糊数的 

表示方法,确定模糊数据的可信度及模糊模式的 

陶卫东:基于犯罪模糊数据库的知识发现 

可信度的计算方法,检查数据的完整性,对丢失 

的数据可以利用统计方法进行填补。说明 

KDCFD过程的有关数据及必要的背景知识。 

(2)犯罪模糊数据挖掘(CFDM),选择犯 

罪模糊模式的发现方法,说明要发现哪一种知识 

及有关参数的选择,运用选定的知识发现算法, 

从数据中提出有价值的、用户感兴趣的、带信度 

的知识。 

(3)结果表达和知识评价。根据用户的目的 

对发现的知识进行分析,并以用户能了解的方式 

呈现给用户。这期问也包括对知识的信度进行修 

正,以确保本次发现的知识的信度与以前发现的 

知识的信度不相抵触。 

可见,DM是KDD中最重要的一个步骤, 

它主要是利用某些特定的知识发现算法,在一定 

的运算效率的限制内,从大量数据中发现出有关 

的知识。最常用的DM技术有规则归纳、人工神 

经网络、遗传算法、决策树、最近邻技术、可视 

化技术等等。本文采用规则归纳技术,即通过统 

计方法来归纳、提取有价值的If-the规则.规则归 

纳的技术在数据挖掘中被广泛使用,例如关联规 

则的挖掘等。 

要从大量的犯罪模糊数据中提取警方感兴 

趣的、带信度的犯罪知识,本质上就是要找出数 

据中经常发生的、带可信度的犯罪模糊模式,然 

后从这些模糊模式中发现有意义的、带信度的知 

识。也就是说,CFDM分为两个步骤: 

(1)求CFDMI(p1)={P ∈Q]p 在Q中经常 一 

发生,并且给p 确定了一个可信度}。其中Q为 

犯罪模糊模式的集合,它描述了犯罪模糊数据的 

某些模糊性质。 

(2)求CFDM2(p)={P∈CFDMI(p。)lp为从 

CFDMl(p )中提取的、警方感兴趣的、带信度的 

犯罪知识,。 

(二)基本算法 

对于求CFDMI(p )我们给出以下查找经常 

a一发生的犯罪模糊模式的算法FCFP(Find— 

Crime.fuzzy.patterns),其中假设犯罪模糊模式集 

合Q中定义了序<,即(Q,<)为有序集。 

(1)把p中所有存在的最小模糊模式放入C 

中,即: 

C={P∈QI不存在q∈Q,使得g<P} 

辽宁警专学报 2011年第3期 

a--Support(W,r)>a--minsup 

do 

(2)F=(2j 

(3)While C≠ 

则称W在r中经常发生。 

(4)Begin 

下面,给出挖掘CFAR的第一步,即找出R 

(5)对每一个P∈C,判断P是否经常口~发生 

中经常以一发生的犯罪模糊模式的算法,我们称 

之为MFAR1算法。 

(6)K:fP∈Clp经常 一发生,且P带一个 

可信度} 

(7)F:Fu 

(8)C={P∈Q}任意的P∈Q,对满足g< 

的所有犯罪模糊模式都已计算,并且 

Prune(P,1) 

(9)End 

(10)CFDMI(p、=F 

(1 1)输出CFDMI(p) 

(12)End 

其中函数Prune(P,1)表示从P中删去任意 

个单位模式后所得到的所有模糊模式的集合。 

例如:设P=ABC,则Prune(P,1)={AB,AC,BC)。 

对于求CFBM2(p),所谓令人感兴趣的知识要因 

人而异,不同的用户有不同的要求,如有的用户 

想挖掘模糊关联规则,有的研究者想进行模糊聚 

类等等,很显然,由于要求不同,所采用的算法 

也不同。 

下面以犯罪模糊数据库中模糊关联规则及 

模糊数据的模糊依赖关系的挖拥为例来说明 

CFDM算法的应用。 

四、应用实例 

本节选择模糊数据挖掘中的关联规则算法 

对犯罪模式的发现过程进行分析。CFAR(Crime 

Fuzzy Association Rule)表示犯罪模糊数据库中 

组对象之间某种模糊关联关系的规则,也就是 

指其有一定信度的关联关系的规则。例如,从一 

个模糊对象能以0.95的信度推出另一个模糊对 

象,就是一条CFAR. 

设 ={ , ,C,…,D}是一个犯罪模糊数据库 

模式,r是R上的一个模糊关系,对于f中的每 

个属性值都用定义I的方法表示,精确数据也 

表示成模糊数的形式,如“路口抢劫”可表示为: 

(路口抢劫,1.0)。 

定义10.设w是R的子集,r是R中的一 

个模糊关系,w在r上口一发生的次数为K,则 

w在r上的 一支持被定义 

66 

算法MFAR 1: 

(1)C=f{ }IA∈R} 

(2)F= 

(3)i=1 

(4)while C≠(2j 

(5)Begin 

(6)F ={xlx∈C且 经常口一发生,并且 

对 具有可信度} 

(7)F=FuF 

(8)C={YIPrune(P,1) F ,size(Y):i+1,且满 

足:若对任意的W[Y,size(IV)=y, 

则 经常口一发生} 

(9)j=j+1 

(10)End 

(1 1)输出F 

(12)End 

其中函数size(x)表示计算模糊模式x的大 

小,如,size(A)的值为l,size(ABD)的值为3。 

下面再给出如何从F中挖掘出FAR的算法, 

MFAR 2算法: 

设F= , ,…,F} 

(1)Set=(2} 

(2)For i=1 To 

(3)取L c 

(4)如果( 一三 )有效,则确定关联规 

贝U( 一 — ) 

(5)判断满足L c 的非空三是否计算完, 

若没有,则 

(6)取L c F,L ≠ ,且L ≠L 

(7)L= GOTO(4、 

(8)Next i 

(9)输出带信度CF的模糊关系集合Set 

(10)End 

基于以上的算法,警方就可以从犯罪案件集 

合Crime Set中选取有意义的犯罪模糊关联规 

则。犯罪案件知识发现目的是为犯罪模糊信息处 

理提供有效的工具。研究表明,开发不同应用领 

陶卫东:基于犯罪模糊数据厍的知识发现 

域的模糊数据库,关键的问题是有效的选择模糊 

算法,在此基础上建立模糊数据挖掘查询表,同 

时,模糊数据库还应具有自学习的能力,要解决 

动推理….模式识别与人工智能,2 00 3, 

(1):70-7 5. 

【4]何新贵.模糊知识处理的理论与技术[M].北 

京:国防工业出版社,1 9 94. 

这一问题,需要运用模糊神经网络技术,这是一 

个有意义的研究课题。 

参考文献: 

[1]何平.基于协同推理原则的刑侦专家系统 

【5]安璐.通用关系数据库与模糊数据库的比较 

研究[J].现代图书情报技术,2 00 3(5): 

2 3—2 6. 

[J].辽宁警官高等专科学校学报,2 004 

(2): 8 7—9 2. 

【6]廖勇等.一种基于关系模型的模糊数据库系 

统模型[J】.计算机工程与设计,2 002(1 0): 

3 3—36. 

[2]何平.刑事侦查的智能理论与计算机实现 

[J].辽宁警官高等专科学校学报,2 001 

(2):1—5. 

(责任编辑:段丽华) 

[3]何平.模糊关系模式映射反演与犯罪侦查自 

Knowledge Discovery Based on the Crime Fuzzy Database 

TAO Weidong 

(Police Information Department,Liaoning Police Academy,Dalian Liaoning 116036,China) 

Abstract:Based on theory researches and practical development conditions of fuzzy database,some 

problems about knowledge discovery are explored in the crime fuzzy database.Research indicates that 

fuzzy database is an important tool in the exploitation process of uncertainty system.The study shows that 

a study system of programs will be produced through organic combination of fuzzy algorithm and 

computer language.Then an algorithm of knowledge discovery is described in the basis of fuzzy crime 

database. 

Keywords:police data model;fuzzy database;crime knowledge discovery;fuzzy study algorithm 

SSCI ISSHP A&HCI简介 

SSCI:社会科学引文索引(Social Science Citation Index)收录全球1400种主要的社会科学期刊论文, 

共涉及50种学科领域,具体包括社会科学及行为科学、人类学、考古学、商业、财政、经济、教育、地理 

历史、图书馆学与情报学、法律、语言、政治、行销、统计、都市发展等。 

ISSHP: 社会科学和人文会议录索引》,创刊于1979年,收录数据从197年至今:数据涵盖了社会 

科学、艺术与人文科学领域的会议文献。这些学科包括:哲学、心理学、社会学、经济学、管理学、艺术、 

文学、历史学、公共卫生等领域。 

A&HCI:艺术与人文科学索引(Arts&Humanities Cit ̄ion Index),完整地收录了艺术与人文科学25个 

学科的1100多种期刊,还包括ISI各个数据库中有关艺术与人文科学方面的其它7000种期刊中的内容,其 

内容涉及各个艺术领域,如视觉、音乐、表演、文学、工艺、历史、宗教等等,还有人文科学的各个方面, 

其主题范围包括考古、建筑、艺术、亚洲研究、古典著作、舞蹈、电影、历史、人文、语言学、文学、音 

乐、哲学、诗歌、广播、宗教、电视和戏剧等。 

67 


发布者:admin,转转请注明出处:http://www.yc00.com/web/1713802752a2321571.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信