博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Apache Tika使用报告
阅读量:5891 次
发布时间:2019-06-19

本文共 1887 字,大约阅读时间需要 6 分钟。

实验对象:Apache Tika

实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识


目录

  1. Apache Tika简介
  2. 配置Apache Tika运行环境
  3. 用GUI图形界面进行文件格式转换的尝试
  4. 用命令行使用Tika
  5. 在java工程中使用Tika

1. Apache Tika 简介

img_140edae30a044381b875bd042b58706b.png
是一个用java编写的内容检测和分析框架,是 的 项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于 过程中文本内容的抽取,以及 进行数据抓取后的处理步骤。

img_a99c8ad7c1278b52ebb14cc128daaff6.png
Tika诞生历程

Tika 架构

Tika 体系结构的四个模块

  • 语言检测机制
  • MIME检测机制
  • Parser接口
  • Tika Facade类
img_3b3a4b644eafe2c1cda110a57d7a21b6.png
img_1358a565eaa88d6f9acabace43efb9e2.png

Tika主要功能

  • 文档类型检测
  • 内容提取
  • 元数据提取
  • 语言检测

2. 配置Apache Tika运行环境

验证java环境

img_fd7bdf81bb9a7ed2e7c66067efdb3628.png
如果没有配置java环境,请 并
下载Tika的源代码 和Tika的jar包

img_bb0dbda395f5408fa7c09dada00e45e2.png
Tika官网的下载页面

在cmd里键入命令打开GUI图形界面

img_d44217b3beb454b9a27047366a72259e.png
命令行打开tika
img_ec01021df2a53c59068b14bfcece92e4.png

3. 用GUI图形界面进行文件格式转换的尝试

编写一个二进制文件tika_test.txt放在C:\目录下

img_437f5a0aaf0f0bf5bba64129a102aeab.png
tika_test.txt

把tika_test.txt拖进gui里,默认显示提取的元数据

img_3c20820289e33f396e4c93895088f76d.png
MetaData

解析成Formatted Text

img_82e801337c706682d9e720bb77d183ca.png
Formatted Text

解析成Plain text

img_912d8ac9fe6e4b7796b1052099b5704c.png
Plain text
提取Main content 居然是空的
img_a2de95e4d5f5cb45de2e302bcb563f78.png
Main content
解析成XML
img_3dbc7452a37b562e728fe23d36b6f687.png
xml

解析成json

img_7cd1ea76426525c9b57010f70c8ef020.png
json

4. 用命令行使用Tika

先来查看Tika命令行的基本参数

img_4ebe1f21db75de6499f79676b6a19be6.png
img_869c1fd9f4961a0e658f00b3040f6163.png
img_d099d07bc52bfe4af20491ab0119406e.png
基本参数

用命令把doc解析为text

img_f4c7a978e37b9938870576c4063f1b10.png
doc
img_f105a2b234cb23555b4e2534601f448f.png
text

5. 在java工程中使用Tika

在Eclipse中新建Java项目,并导入tika-app-1.14.jar

img_5efb079f028ae8cbae2da67b48846a86.png

编写Test.java

import org.apache.tika.Tika;import java.io.*;/** * Created by Administrator on 2017/5/15. */public class Test {    public static void main(String[] args) throws Exception{        //二进制文件路径        String fileName="c:/tika_test.txt";        //二进制文件        File file1 = new File(fileName);        //通过tika获取文件内容        Tika tika = new Tika();        String filecontent = tika.parseToString(file1);        //打印文件内容        System.out.println("Extracted Content: " + filecontent);        try{            //要转换到的文件            File file =new File("c:/ddd.doc");            //文件不存在就新建            if(!file.exists()){                file.createNewFile();            }            //把二进制文件内容写入doc文件            FileWriter fw = new FileWriter(file.getAbsoluteFile());            BufferedWriter bw = new BufferedWriter(fw);            bw.write(filecontent);            bw.close();            System.out.println("Done");        }catch(IOException e){            e.printStackTrace();        }    }}

运行程序

img_68930fff65fe7682983e310d439a708d.png
在Eclipse中运行

生成ddd.doc,如下图

img_4336bc9910ab81363b7232e64d8ff362.png
img_b68562d9e8dd6705c09acef3d54fd096.png
生成的doc文件

参考链接:

相关链接:

转载地址:http://qgfsx.baihongyu.com/

你可能感兴趣的文章
Linux下文本文件中^M 符号问题的解决
查看>>
JVM性能监控诊断
查看>>
php 魔术方法 __debugInfo()
查看>>
【学习笔记】Android 图像加载类库使用
查看>>
RabbitMQ虚拟主机作用以及配置
查看>>
Log4J基础详解及示例大全
查看>>
CentOS7.2 Keepalived + Nginx 实现高可用性
查看>>
U盘中word文件误操作后恢复案例
查看>>
手机验证码
查看>>
噩梦遇地震,醒后忆岁月
查看>>
对面向对象的理解
查看>>
java反射
查看>>
iPhone开发面试题--葵花宝典
查看>>
RAC节点重启分析
查看>>
百度自动驾驶一战成名 造车新势力高调发声
查看>>
打哈欠 为什么会传染
查看>>
通过dubbo暴露接口调用方法,及基于zookeeper的dubbo涉及配置文件【转】
查看>>
MySQL的简单操作方法:PreparedStatement
查看>>
Java内部类详解
查看>>
IIS日志——统计IP访问次数的一种方法
查看>>