TIKA安装与使用

TIKA安装与使用TIKA 使用报告一 TIKA 简介 ApacheTika 是一个用 java 编写的内容检测和分析框架 是 Apache 的 Lucene 项目的子项目 它能够检测很多不同文件类型的文件 并提取文件的元数据和结构化文本 它提供了一个命令行界面和一个 GUI 界面 还提供一个 java 库 可用于自然语言处理过程中文本内容的抽取 以及搜索引擎进行数据抓取后的处理步骤 1 1 语言检测机制每当一个文本文件被传递到 Ti

TIKA使用报告

一、TIKA简介

Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。

在这里插入图片描述
1.1语言检测机制

每当一个文本文件被传递到Tika,它将检测在其中的语言。它接受没有语言的注释文件和通过检测该语言添加在该文件的元数据信息。

支持语言识别,Tika 有一类叫做语言标识符在包org.apache.tika.language及语言识别资料库里面包含了语言检测从给定文本的算法。Tika 内部使用N-gram算法语言检测。

1.2MIME检测机制

Tika可以根据MIME标准检测文档类型。Tika默认MIME类型检测是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分内容类型检测。

内部Tika使用多种技术,如文件匹配替换,内容类型提示,魔术字节,字符编码,以及其他一些技术。

1.3解析器接口

org.apache.tika.parser 解析器接口是Tika解析文档的主要接口。该接口从提取文档中的文本和元数据,并总结了其对外部用户愿意写解析器插件。

采用不同的具体解析器类,具体为各个文档类型,Tika 支持大量的文件格式。这些格式的具体类不同的文件格式提供支持,无论是通过直接实现逻辑分析器或使用外部解析器库。

1.4Tika Facade 类

使用的Tika facade类是从Java调用Tika的最简单和直接的方式,而且也沿用了外观的设计模式。可以在 Tika API的org.apache.tika包Tika 找到外观facade类。

通过实现基本用例,Tika作为facade的代理。它抽象了的Tika库的底层复杂性,例如MIME检测机制,解析器接口和语言检测机制,并提供给用户一个简单的接口来使用。

TIKA特点

 统一解析器接口:Tika封装在一个单一的解析器接口的第三方解析器库。由于这个特征,用户逸出从选择合适的解析器库的负担,并使用它,根据所遇到的文件类型。

 低内存占用:Tika因此消耗更少的内存资源也很容易嵌入Java应用程序。也可以用Tika平台像移动那样PDA资源少,运行该应用程序。

 快速处理:从应用连结内容检测和提取可以预期的。

 灵活元数据:Tika理解所有这些都用来描述文件的元数据模型。

 解析器集成:Tika可以使用可在单一应用程序中每个文件类型的各种解析器库。

 MIME类型检测: Tika可以检测并从所有包括在MIME标准的媒体类型中提取内容。

 语言检测: Tika包括语言识别功能,因此可以在一个多语种网站基于语言类型的文档中使用。

3、TIKA的功能

3.1文件类型检测

Tika使用不同的检测技术,检测给它的文件的类型。

![](media/image2.png){width=

3.2内容提取

在这里插入图片描述

Tika有一个解析器库,可以分析各种文档格式的内容,并提取它们。然后检测所述文档的类型,它从解析器库选择的适当的分析器,并传递该文档。不同类别的Tika方法来解析不同的文件格式。

3.3元数据提取

![](media/image4.png){width=

随着内容,Tika提取具有相同的程序的文件的元数据中的内容的提取。对于某些文件类型,Tika有接口类提取元数据。

3.4语言检测

![](media/image5.png){width=

在内部,Tika如下像一个n-gram算法来检测所述内容的语言的给定文档中。Tika取决于类,如语言识别和Profiler的语言识别。

二、使用TIKA进行文档解析

1、TIKA下载及安装

下载地址:http://www.apache.org/dyn/closer.cgi/tika/tika-1.14-src.zip

http://www.apache.org/dyn/closer.cgi/tika/tika-app-1.14.jar

打开cmd,进入tika包所在的文件夹键入命令打开GUI图形界面

Java -jar tika-app-1.20.jar –gui

![](media/image6.png){width=

弹出TIKA窗口

![](media/image7.png){width=

2、使用TIKA进行文件解析

解析结果如下:

Application-Name: Microsoft Office Word Application-Version: 16.0000 Author: Administrator Character Count: 12743 Character-Count-With-Spaces: 14949 Content-Length:  Content-Type: application/vnd.openxmlformats-officedocument.wordprocessingml.document Creation-Date: 2019-05-06T13:26:00Z Last-Author: Administrator Last-Modified: 2019-05-16T13:49:00Z Last-Printed: 2019-05-16T13:48:00Z Last-Save-Date: 2019-05-16T13:49:00Z Line-Count: 106 Page-Count: 21 Paragraph-Count: 29 Revision-Number: 27 Template: Normal Total-Time: 736 Word-Count: 2235 X-Parsed-By: org.apache.tika.parser.DefaultParser X-Parsed-By: org.apache.tika.parser.microsoft.ooxml.OOXMLParser X-TIKA:digest:MD5: 980d183e28b6ab8a4b7716f6131c45d5 X-TIKA:digest:SHA256: 0e79970f2a0bc3c524a88a954db9e5d765c0aa5e9f76a8e99383ec7413c151cd cp:revision: 27 creator: Administrator date: 2019-05-16T13:49:00Z dc:creator: Administrator dc:publisher: dcterms:created: 2019-05-06T13:26:00Z dcterms:modified: 2019-05-16T13:49:00Z extended-properties:AppVersion: 16.0000 extended-properties:Application: Microsoft Office Word extended-properties:Company: extended-properties:Template: Normal extended-properties:TotalTime: 736 meta:author: Administrator meta:character-count: 12743 meta:character-count-with-spaces: 14949 meta:creation-date: 2019-05-06T13:26:00Z meta:last-author: Administrator meta:line-count: 106 meta:page-count: 21 meta:paragraph-count: 29 meta:print-date: 2019-05-16T13:48:00Z meta:save-date: 2019-05-16T13:49:00Z meta:word-count: 2235 modified: 2019-05-16T13:49:00Z publisher: resourceName: PW5中文分词器比较.docx xmpTPg:NPages: 21 

参考资料:https://www.yiibai.com/tika/tika_architecture.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/207874.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午12:53
下一篇 2026年3月19日 下午12:54


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号