WordNet_的同义词典实现同义词检索(C#版)

WordNet_的同义词典实现同义词检索(C#版)


2024年4月11日发(作者:)

同义词检索应该很多时候会用得上的,举个简单的例子,我们搜索关键字 good 的时候,与

well 和 fine 等的词条也可能是你想要的结果。这里我们不自己建立同义词库,直接使用

WordNet 的同义词库,本篇介绍 C# 版的实现步骤,还会有续篇--Java 版。

由于 Lucene 是发源于 Java,所以 C# 的应用者就没有 Java 的那么幸福了,Java 版已经有

3.0.2 可下载,C# 的版本还必须从 SVN 库里:

/repos/asf/lucene//tags/_2_9_2/ 才能取到最新的 2.9.2

的源码,二制包还只有 2.0 的。

接下来就是用 VS 来编译它的,不多说。只是注意到在 contrib 目录中有 解决

方案,这是我们想要的,编译 可得到三个可执行文件:

1. 用来根据 WordNet 的同义词库建立同义词索引文件,同义词本身也是通

过 Lucene 来查询到的

2. 从同义词索引中查找某个词有哪些同义词

3. 与 SynLookup 差不多,只是多了个权重值,大概就是同义程度

好啦,有了 和上面那三个文件,我们下面来说进一步的步骤:

二. 下载 WordNet 的同义词库

可以从 /3.0/ 下载 文件。然后解压到某个

目录,如 D:WNprolog-3.0,其中子目录 prolog 中有许多的 pl 文件,下面要用到的就是

wn_

三. 生成同义词 Lucene 索引

使用命令

d:WNprolog-3.0prologwn_ syn_index

第二个参数是生成索引的目录,由它来帮你创建该目录,执行时间大约 40 秒。这是顺利的

时候,也许你也会根本无法成功,执行 的时候出现下面的错误:

Unhandled Exception: ntException: maxBufferedDocs must at least be 2 when

enabled

at BufferedDocs(Int32 maxBufferedDocs)

at (String indexDir, IDictionary word2Nums, IDictionary

num2Words)

at (String[] args)

莫急,手中有源码,心里不用慌,只要找到 Syns2Index 工程,改动 文件中的

BufferedDocs(BufferedDocs() * 2*/); //GetMaxBufferedDocs() 本身

就为 0,翻多少倍也是白搭

BufferedDocs(100); //所以直接改为 100 或大于 2 的数就行

重新使用新编译的 执行上一条命令即可。成功执行后,可以看到新生成了一

个索引目录 syn_index, 约 3 M。

现在可以用另两个命令来测试一下索引文件:

D:wordnet> syn_index hi

Synonyms found for "hi":

hawaii

hello

howdy

hullo

D:wordnet> syn_index hi

Query: hi hawaii^0.9 hello^0.9 howdy^0.9 hullo^0.9

也可以用 Luke - Lucene Index ToolBox 来查看索引,两个字段,syn 和 word,通过 word:hi 就

可以搜索到 syn:hawaii hello howdy hullo

四. 使用同义词分析器、过滤器进行检索

相比,Java 程序员要轻松许多,有现成的 ,里面有一些现在的代码可

以用。C# 的那些分析器和过滤器就得自己写了,或许我已走入了一个岔道,但也不算崎岖。

小步骤就不具体描述了,直接上代码,大家从代码中去理解:

同义词引擎接口

view source

print?

c;

02.

ace ing

04.{

05. ///

06. /// Summary description for ISynonymEngine

07. ///

08. public interface ISynonymEngine


发布者:admin,转转请注明出处:http://www.yc00.com/news/1712847206a2133696.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信