.net 下如何将文档文件(Word, Pdf等) 中的文本提取出来

admin•2025-03-28 14:38:17•网站建设•阅读62

2024年5月4日发(作者：)

.net 下如何将文档文件(Word, Pdf等) 中的文本提取出来 - eaglet - 博客园

经常有人问我怎么将类似word，pdf这样的文档转换为文本然后索引，.net 这方面的解决

方案不是很多，为了方便大家，我花了一天时间自己做了一个。

Java 版本的 lucence 提供了一个 tika 的工具用于将 word, excel, pdf 等文档转换为文本，

然后进行索引。但这个工具没有 .net 版本，要在 .net 下用，需要用，很麻烦。而且

这个工具实际上底层是调用 POI 和 PDFParse 来转换的。从网上搜索到的信息看,POI 对 office

2007 以上版本的文档处理有问题，不知道最新版本是否解决了，我没有试过。 PDFParse 这个

东西，我用过 .net 版本，对中文不支持，不知道 Java 版本是否支持。

其实 .net 下完全不需要用这些开源解决方案来解决，因为微软提供了一个官方的解决方

案，这个解决方案叫 IFilter，这个过滤器是为 SQL SERVER 的全文索引设计的，但第三方软件

可以调用API来完成文档的提取工作。

为了方便大家，我把 IFilter 转换的功能封装到了一个开源的组件中去，大家可以到下面地

址去下载源码：HBTextParse.

调用很简单：

这个是提取文件中的文本到字符串的代码

if (alog() == ) { //要转换的文件

= me; //实例化 TextParse ，传入要转换的

文件路径 TextParse textParse = new TextParse(); //提取文件中

的文本，并输出 = tToString(); }

这个是将文件转换为文本文件的代码：

if (alog() == ) { try { //实例化

TextParse，传入要转换的文件的路径 TextParse textParse = new

TextParse(); //将文件转换到 me 指定

的文本文件中 tToFile(me); } catch

(Exception ex) { (e, "Error", ,

); } }

要注意的问题是提取 Pdf 文档，如果机器是 64为操作系统，必须要安装Adobe PDF

iFilter 9 for 64-bit platforms. 否则会报异常。这个问题我搞了将近一天才搞定。

支持的文档类型：

目前这个组件可以支持所有 Microsoft office 提供的文档类型，包括 *.rtf, *.doc, *.docx,

*.xls, *.xlsx, *.ppt, *.pptx 等等

除了微软Office的文档外，还可以转换

• html 文档:可以把html文档中的文本提取出来（不包含标签）

• Pdf 文档:我测试过，对中文支持没有问题

• Txt 文档

这个代码的核心部分是一个叫 FilterCode 的类。这个类是从/

发布者：admin，转转请注明出处：http://www.yc00.com/web/1714753354a2508953.html

文档转换提取文本文件

admin

网站建设
es文件浏览器正在增加服务器,es文件浏览器出现错误，es文件浏览器无法找到服务器怎么解决？...
很多用户在使用es文件浏览器的时候，总是提示错误，无法找到服务器，这是怎么回事?小编总结了es文件浏览器错误的原因和解决方案，大家可以来看看哦! es文
admin
23天前
20
网站建设
使用浏览器打印保存pdf文件时闪退无反应
用edge浏览器打印功能时，出现瞬间或加载几秒后突然闪退情况，本来以为是浏览器出了问题，去重置设置也没有，后来又下载了Chrome浏览器&#xf
admin
23天前
30
网站建设
计算机毕业设计SpringBoot+Vue.js校园商铺管理系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
23天前
10
网站建设
计算机中文件无法删除,电脑文件无法删除怎么办？强制删除文件的方法
在使用电脑时经常会遇到一些文件无法删除的情况，这是因为这些文件正在被软件调用，正常情况下只要把软件先关闭就可以删除文件了，但是如果是运行在后台的流氓软件就没这么简单了&
admin
22天前
20
网站建设
win11中gpedit.msc找不到文件怎么办 windows11gepdit.msc找不到文件的解决方法
正常情况下我们是可以通过gpedit.msc打开策略组，但是有一些使用Win11系统的小伙伴说自己无法使用gpedit.msc找文件，那么遇到这种情况要怎么办呢?下面就和小编一起来看看有什么解决方
admin
22天前
40
网站建设
复制粘贴到word文档中的表格超出页面该怎么办
首先，我们打开一个表格超出页面的word文档，如图所示； 然后我们点击表格左上角的那个按钮，如图所示，这样我们就选中了整个表格
admin
22天前
10
网站建设
电脑突然死机，文档还未保存怎么办？
1、新建文档2、点击文件选项卡3、点击管理文档，就能找未保存文档啦
admin
22天前
30
网站建设
Windows系统C盘爆红-清理删除C盘文件
电脑分配磁盘时给电脑分配的磁盘空间较小，用着用着就满了，出现爆红，这时就可以清理或者删除C盘中的一些不影响系统运行的文件，释放一些可用空间。 1.首先
admin
22天前
20
网站建设
Veeam B&R10 来宾操作系统文件恢复Windows版
Veeam Backup and Replication 9.5 系列目录1.Veeam B&R 01 介绍 2.Veeam B&R 02 安装部署 3.Veeam B&R 03 初始化配置 4.Veeam B
admin
22天前
50
网站建设
【Ubuntu】【完美解决】windows传文件到Ubuntu 中文乱码显示问题，moba显示GBK中文乱码
文章目录问题描述问题解决方法一问题解决二（另选）已经有gbk编码文件，转换到utf-8参考问题描述 Windows的默认编码为GBK，Linux的
admin
22天前
20
网站建设
处理Windows文件格式为Linux文件格式的方法
本文将介绍处理Windows文件格式为Linux文件格式的3种方法。 1 判断Windows文件格式在Linux系统中，当我们执行shell脚本时，有时会出现以下错误：
admin
22天前
30
网站建设
计算机毕业设计SpringBoot+Vue.js在线远程考试系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
10天前
30
网站建设
计算机毕业设计SpringBoot+Vue.js仓库管理系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
10天前
40
网站建设
计算机毕业设计SpringBoot+Vue.js中小型制造企业质量管理系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
10天前
40
网站建设
windows(win7,win8,xp)hosts文件找不到原因分析及解决方法
一般情况hosts文件是保存在C:windowsSystem32DriversEtc 文件夹上，由于安装是win7系统，在这个路径上就能找到这个hosts文件。如果你在该路径下没有找到这个
admin
9天前
20
网站建设
Windows11系统usosvc.dll文件丢失问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一
admin
7天前
60
网站建设
cmd指令ie打开html文件,命令行调用 IE 浏览器打开指定网址
我们知道打开某个网址可以像下面这样(注意：网址不能加引号)：start https:www.baidu 有时候又需要用系统自带 IE 浏览器打开某个网址，但是安装了一些壳
admin
6天前
20
网站建设
微信如何自动唤起外部浏览器打开APP下载文件或指定链接
微信上进行的网页宣传、游戏传播、APP下载各类活动很多，但是各位朋友肯定经常会遇到一些特殊需求，网页需要在手机默认浏览器打开而不是微信内置浏览器。这个问题怎么解决呢? 解决方案&#xff1
admin
6天前
40
网站建设
计算机毕业设计SpringBoot+Vue.js项目申报系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
6天前
40
网站建设
计算机毕业设计SpringBoot+Vue.js协同过滤算法东北特产销售系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
6天前
70

发表回复

评论列表（0条）

暂无评论

.net 下如何将文档文件(Word, Pdf等) 中的文本提取出来

发表回复

评论列表（0条）

联系我们

400-800-8888

.net 下如何将文档文件(Word, Pdf等) 中的文本提取出来

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888