用tika来解析pdf,word,excle,txt,超链接

admin•2025-03-26 03:55:07•网站建设•阅读21

<dependency><gr

用tika来解析pdf,word,excle,txt,超链接

	<!-- .apache.tika/tika-parsers --><dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers</artifactId><version>1.1</version></dependency>这是tika的解析包

下面是测试代码，都有效

package com.crsri.tika.tes;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.junit.Test;
import org.xml.sax.SAXException;
import com.crsri.TgdsmApplicationTests;
/**

Tika测试类
@author liufei

*/
public class TikaTest extends TgdsmApplicationTests{

 /*** 解析超链接* @throws MalformedURLException* @throws IOException* @throws TikaException*/@Testpublic void tikaTest1() throws MalformedURLException, IOException, TikaException {Tika tika = new Tika();String parseToString = tika.parseToString(new URL(""));System.out.println(parseToString);}/*** 解析doc文本* @throws MalformedURLException* @throws IOException* @throws TikaException*/@Testpublic void tikaTest2() throws MalformedURLException, IOException, TikaException {Tika tika = new Tika();File file = new File("D:\\caomao2.docx");String parseToString = tika.parseToString(file);System.out.println(parseToString);}/*** 解析excle文本* @throws MalformedURLException* @throws IOException* @throws TikaException*/@Testpublic void tikaTest3() throws MalformedURLException, IOException, TikaException {Tika tika = new Tika();File file = new File("D:\\工作簿1.xlsx");String parseToString = tika.parseToString(file);System.out.println(parseToString);}/*** 解析txt文本* @throws MalformedURLException* @throws IOException* @throws TikaException*/@Testpublic void tikaTest4() throws MalformedURLException, IOException, TikaException {Tika tika = new Tika();File file = new File("D:\\base64.txt");String parseToString = tika.parseToString(file);System.out.println(parseToString);}/*** 解析pdf文本* @throws MalformedURLException* @throws IOException* @throws TikaException*/@Testpublic void tikaTest5() throws MalformedURLException, IOException, TikaException {Tika tika = new Tika();File file = new File("F:\\猫眼\\UML_Reference_Manual.pdf");String parseToString = tika.parseToString(file);System.out.println(parseToString);}/*** 用特定api去解析正文的标题，类型，正文内容* @throws IOException* @throws SAXException* @throws TikaException*/
@Test
public void test10() throws IOException, SAXException, TikaException {FileInputStream  input=new FileInputStream(new File("D:\\窗前明月光.docx"));//可以写文件路径，pdf，word，html等BodyContentHandler textHandler=new BodyContentHandler();//获取内容Metadata matadata=new Metadata();//Metadata对象保存了作者，标题等元数据AutoDetectParser parser = new  AutoDetectParser();//当调用parser，AutoDetectParser会自动估计文档MIME类型，此处输入PDP文件，因此可以使用PDFParserParseContext context=new ParseContext();parser.parse(input, textHandler, matadata, context);//执行解析过程input.close();System.out.println("Title: "+matadata.get(Metadata.TITLE));System.out.println("Type: "+matadata.get(Metadata.TYPE));System.out.println("Body: "+textHandler.toString());//从textHandler打印正文
}/*** 用输入流的方式解析* @throws IOException* @throws SAXException* @throws TikaException*/
@Test
public void test11() throws IOException, SAXException, TikaException {FileInputStream  input=new FileInputStream(new File("D:\\窗前明月光.docx"));//可以写文件路径，pdf，word，html等Tika tika = new Tika();String parseToString = tika.parseToString(input);
}

}

发布者：admin，转转请注明出处：http://www.yc00.com/web/1691158092a508978.html

admin

网站建设
如何更改word指定页纸张方向
选中想要修改的那页，光标在当前页的最前方。选择布局-分隔符-分节符的下一页。如下图。然后选择想要的纸张方向，就修改完了。
admin
3月前
100
网站建设
WORD文档里的分页符和分节符
前一段时间写标书，遇到一个很棘(ji)手的问题，就是标书写好之后，检查修改的时候，如果删除或者增加了几行，后边的格式都会错乱掉&a
admin
3月前
70
网站建设
办公word-从不是第一页添加页码
总结实际需要注意的是，分隔符、分节符和分页符并不是一个含义分隔符包含其他两个；分页符：是增加一页；分节符：指将文档分为几部分
admin
3月前
80
网站建设
word的页脚页码从9开始后面全是1，怎么解决？
分析：显示不完全的原因，看到是1，其实是十几。 1.插入-页脚-编辑页脚 2.选中页码并把页码的框框拉大一点 3.发现奇迹般的好了
admin
3月前
90
网站建设
帝国CMS编辑器粘贴WORD图片
帝国CMS编辑器粘贴WORD图片， 之前在网上也找过相关的资料，论坛里面也有网友讨论过，还加过很多QQ群和微信群。但是都不太令人满意。这个功能对用户来说确实是非常的方便
admin
3月前
70
网站建设
word去掉多余空格，换行符
一、批量删除空行多余的空行很容易使文章整体变得空旷，致使文档总体篇幅过长，而一般情况下大多数人面对这些空行，基本方法都是单个删除，效率极低。方法
admin
3月前
90
网站建设
Word邮件合并时根据指定条件分页
思路首先在数据源中设置分页标识，比如加一列，当需要分页时值为1，不分页时值为其他的。邮件合并选择文档为“目录”，因为这种模式不会自动分页&
admin
3月前
60
网站建设
word添加页码后，每一页的页码都一样怎么办？？
word添加页码后，每一页的页码都一样，可以通过以下方法进行设置，让页码自动增加，具体的步骤如下： 1、打开需要添加页码的wor
admin
3月前
80
网站建设
手机txt拆分器_TXT文本分割器
TXT文本分割器是一款没有功能限制的TXT文档分割免费软件。TXT文本分割器支持将一个txt文本分割成为多个文件，可按照自定义文档份数以及自定义文档大小进行任意分割。并且TXT文本分割器支持所生成分割文档的自定义命名，从而方便阅读以及整理t
admin
3月前
50
网站建设
Office办公软件之word的使用（一）
前几天调整公司招标文件的格式，中途遇到一些问题，感觉自己还不是太熟悉操作，通过查阅资料，知道了正确的操作，就想着给记下来。如果再次
admin
3月前
80
网站建设
Word文档有些地方不能编辑？
Word文件打开之后有些地方不能编辑，有些地方又可以编辑，这是什么原因呢？如何设置？如何取消呢？ 首先，导
admin
2月前
80
网站建设
word出现空白页、出现空白表格等等总是删不掉？空白页删不掉？来！解决！
1.word删除空白页：1)：可以在空白页的最低端开始按退格键一直推到有字的一页，自然会删除； 2)：可以按右下角那个“-”号&a
admin
2月前
180
网站建设
Vue导出页面为word
由于导出word时，页面样式无法正常使用，因此整体页面采用table布局，仅在几个地方添加style样式，没有其余样式 *** 当页面中有canvas
admin
2月前
80
网站建设
web项目下载TXT文件防止浏览器直接打开
2019独角兽企业重金招聘Python工程师标准>>> 只需要在web.xml中设置如下内容： <mime-mapping><extension>txt<exten
admin
1月前
40
网站建设
Word笔记----wps插入的图片像素降低了怎么办？
1. 在WPS文字菜单栏上点击文件，弹出菜单点击选项。 2.点击常规与保存，右边勾选不压缩文件中的图像；将默认目标输入设置为220 ppi，然后击确定。
admin
1月前
40
网站建设
浏览器打开 txt 文件乱码终极解决方案，亲测有效！
在点击如下链接的时候，浏览器会直接打开文件，而不是下载文件。 <a href"abc.txt">点击下载<a>问题就来了，当文
admin
1月前
10
网站建设
matlab怎样把代码导入word,matlab代码或中文复制到word就变成乱码怎么办？
matlab代码或中文复制到word就变成乱码怎么办？在matlab的edit中编辑的脚本程序复制到word时，注释里面的汉字变为乱码了，出现这种情况的朋友可以看过来了&am
admin
1月前
30
网站建设
修复Microsoft Office的Word、Excel、PPT丢失图标
文章目录打开注册表Word注册表Excel注册表PPT注册表修复使用注册表方式修复，删除Word、Excel、PPT的对应文件夹，那个丢失，就删除那个&#xff0
admin
1月前
30
网站建设
通过CMakeLists.txt在windowslinux编译跨平台开源项目
开始入门 cmake 是什么？ Linux centos 安装cmake Linux centos 下cmake编译项目 windows安装cmake windwos cmake 编译项目非vs项目没有sln 解决方案 linux cma
admin
19天前
10
网站建设
Word 小黑第40套
对应大猫43 主题 -浏览主题 -选择W样式标准文件就行 1级段落和2级段落（用项目符号不影响原本段落文字符号颜色修改为自动） 整段变红的不是把光标定位到红色字体那里要选择几个红色字体再
admin
6天前
30

发表回复

评论列表（0条）

暂无评论

用tika来解析pdf,word,excle,txt,超链接

用tika来解析pdf,word,excle,txt,超链接

发表回复

评论列表（0条）

联系我们

400-800-8888

用tika来解析pdf,word,excle,txt,超链接

用tika来解析pdf,word,excle,txt,超链接

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888