`
yangwei0915
  • 浏览: 460278 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

Lucene学习之使用Apache Tika进行文档内容抽取

 
阅读更多

在上一篇关于Lucene的博客中,介绍了Lucene的入门以及中文文件的搜索问题解决,其中使用的例子是以文本文件作为搜索的文档,在创建索引时使用了Reader读取文件。但是在实际的应用过程中,经常需要对各种各样的非文本文件的内容进行全文搜索。我们常用的除了txt、html、xml等文本格式的文档外,还有大量的例如pdf、word、ppt等非文本格式的文档,在对这些文档中的内容进行搜索时,就需要先抽取其内容,然后再跟进其内容创建索引,才能被正确搜索。Apache Tika 就是一款强大的文档内容抽取框架,它集成了各种文档解析器,能够识别大多数的文档,并且能够扩展其他的解析器,而且对中文的识别也较好。经过不完全测试,能够识别的文档格式如下:

  1. pdf文档
  2. doc、docx、ppt、excel
  3. txt、html、xml
  4. zip、tar

以上4类文档基本上包含了我们在创建一个资料库时所使用的文档格式。

这个框架的使用也非常简单,代码如下(使用tika-app-1.4.jar):

import org.apache.tika.Tika;

public class SimpleTextExtractor {
	public static void main(String[] args) throws Exception {
		// 创建 Tika实例
		Tika tika = new Tika();
		// 使用tika对文件内容进行抽取,对常用的文档格式进行测试
//		String filePath="D:/tikatest/test.pdf";
//		String filePath="D:/tikatest/test.doc";
//		String filePath="D:/tikatest/test.docx";
//		String filePath="D:/tikatest/test.txt";
//		String filePath="D:/tikatest/test.ppt";
//		String filePath="D:/tikatest/test.wps";
		String filePath="D:/tikatest/test.zip";
		String text = tika.parseToString(new File(filePath));
		System.out.println(text);
	}
}

  

需要下载Apacke tika的jar文件,下载链接:

http://mirrors.hust.edu.cn/apache/tika/tika-app-1.4.jar

 

分享到:
评论
1 楼 baiyingtao 2016-06-24  
这些信息不太够,我们希望得到相关Keyword的段落,页码,区域等信息。Tika可以拿到吗?

相关推荐

    tika+lucene完整jar包

    tika+lucene完整jar包:tika-app-1.20.jar、lucene-7.7.1

    lucene学习lucene学习

    lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习lucene学习...

    ForeIndex:使用Apache Hadoop,Apache Lucene和Apache Tika的分布式索引-开源

    这是一个分布式索引框架,使用Apache Hadoop,Apache Lucene和Apache Tika对大量数据进行索引。

    apache中的tika包

    lucene's tika可以直接去网站下载噢。

    lucene-core-7.7.0-API文档-中文版.zip

    标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene-core-7.2.1-API文档-中文版.zip

    标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene org.apache

    org.apache.lucene.analysis.cjk.CJKAnalyzer .......

    Lucene in Action 中文版

     《Lucene实战 第2版 》基于Apache的Lucene 3 0 从Lucene核心 Lucene应用 案例分析3个方面详细系统地介绍了Lucene 包括认识Lucene 建立索引 为应用程序添加搜索功能 高级搜索技术 扩展搜索 使用Tika提取文本 Lucene...

    lucene-core-6.6.0-API文档-中文版.zip

    标签:core、apache、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    Lucene实战

    《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本...

    lucene 学习文档

    这里面是lucene的相关学习资料,特别适合新手学习。

    apache下的lucene教程

    lucene教程,最新的apache基金技术支持的项目

    lucene-spatial-6.6.0-API文档-中英对照版.zip

    标签:apache、lucene、spatial、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明...

    lucene-highlighter-6.6.0-API文档-中文版.zip

    标签:apache、highlighter、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译...

    lucene-suggest-7.7.0-API文档-中文版.zip

    标签:apache、lucene、suggest、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-grouping-6.6.0-API文档-中文版.zip

    标签:apache、lucene、grouping、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-core-6.6.0-API文档-中英对照版.zip

    标签:core、apache、lucene、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准...

    lucene-join-7.2.1-API文档-中英对照版.zip

    标签:apache、lucene、join、中英对照文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    Lucene学习文档

    Lucene学习文档Lucene学习文档Lucene学习文档Lucene学习文档

    apache-lucene-snowball.jar

    jar包,亲测可用

Global site tag (gtag.js) - Google Analytics