本文共 1887 字,大约阅读时间需要 6 分钟。
实验对象:Apache Tika
实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识Tika 体系结构的四个模块
验证java环境
在cmd里键入命令打开GUI图形界面
编写一个二进制文件tika_test.txt放在C:\目录下
把tika_test.txt拖进gui里,默认显示提取的元数据
解析成Formatted Text
解析成Plain text
解析成json
先来查看Tika命令行的基本参数
用命令把doc解析为text
在Eclipse中新建Java项目,并导入tika-app-1.14.jar
编写Test.java
import org.apache.tika.Tika;import java.io.*;/** * Created by Administrator on 2017/5/15. */public class Test { public static void main(String[] args) throws Exception{ //二进制文件路径 String fileName="c:/tika_test.txt"; //二进制文件 File file1 = new File(fileName); //通过tika获取文件内容 Tika tika = new Tika(); String filecontent = tika.parseToString(file1); //打印文件内容 System.out.println("Extracted Content: " + filecontent); try{ //要转换到的文件 File file =new File("c:/ddd.doc"); //文件不存在就新建 if(!file.exists()){ file.createNewFile(); } //把二进制文件内容写入doc文件 FileWriter fw = new FileWriter(file.getAbsoluteFile()); BufferedWriter bw = new BufferedWriter(fw); bw.write(filecontent); bw.close(); System.out.println("Done"); }catch(IOException e){ e.printStackTrace(); } }}
运行程序
生成ddd.doc,如下图
参考链接:
相关链接:转载地址:http://qgfsx.baihongyu.com/