首页 / JAVA / java – 使用apache tika在doc文件中获取嵌入式资源

java – 使用apache tika在doc文件中获取嵌入式资源

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java – 使用apache tika在doc文件中获取嵌入式资源，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2033字，纯文字阅读大概需要3分钟。

内容图文

我有ms文档包含文本和图像.我想解析它们以获得xml结构.在研究之后,我最终使用apache tika来转换我的文档.我可以将我的doc解析为xml.这是我的代码：

AutoDetectParser parser=new AutoDetectParser();
InputStream input=new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.setResult(new StreamResult(sw));

parser.parse(input, handler, metadata, new ParseContext());
String xhtml = sw.toString();

我想从文档中提取图像并将其转换为二进制格式.我不知道如何从文档中提取嵌入的资源.

解决方法:

您需要定义自己的类来实现Parser,并将其附加到解析外部文档时提供的ParseContext.然后将为所有嵌入资源调用您的Parser,允许您根据需要将其保存

我能想到的最好的例子是Tika CLI,正如-z(extract)标志所使用的那样.如果您查看source code for TikaCLI,那么您正在寻找FileEmbeddedDocumentExtractor作为示例.

最简单的代码是这样的：

final AutoDetectParser parser = new AutoDetectParser();

public class ExtractParser extends AbstractParser {
   private int att = 0;
   public Set<MediaType> getSupportedTypes(ParseContext context) {
     // Everything AutoDetect parser does
     return parser.getSupportedTypes(context);
   }
   public void parse(
        InputStream stream, ContentHandler handler,
        Metadata metadata, ParseContext context)
        throws IOException, SAXException, TikaException {
      // Stream to a new file
      File f = new File("out-" + (++att) + ".bin");
      FileOutputStream fout = new FileOutputStream(f);
      IOUtils.copy(strea, fout);
      fout.closee();
   }
}

InputStream input = new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
context.set(Parser.class, extractParser);
parser.parse(input, handler, metadata, context);

如果您愿意,也可以使用EmbeddedDocumentExtractor接口,如果最好直接使用Parser,则取决于您想要做什么

内容总结

以上是互联网集市为您收集整理的java – 使用apache tika在doc文件中获取嵌入式资源全部内容，希望文章能够帮你解决java – 使用apache tika在doc文件中获取嵌入式资源所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/816665.html

来源：【匿名】

【上一篇】java – 自定义spring-data存储库后端【下一篇】JAVA/JSP学习系列之五

更多 ►

【java – 使用apache tika在doc文件中获取嵌入式资源】教程文章相关的互联网学习教程文章

hive 报错 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:344) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:681) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:625) at sun...

JAVA在Windows使用apache commons-csv导出CSV解决方案【代码】

一、添加依赖到pom.xml <dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</version></dependency><dependency><groupId>org.apache.commons</groupId><artifactId>commons-csv</artifactId><version>1.6</version></dependency>二...

java: 读取D:\maven\apache-maven-3.6.3\maven-repo\javax\javaee-web-api\8.0.1\ 出现 not a zip file【图】

解决方式删除图片中指向jar包，然后更新maven即可原文：https://www.cnblogs.com/5200flyer/p/14832797.html

eclipse 提交代码到SVN服务器失败，报org.apache.subversion.javahl.ClientException: RA layer request failed svn: Commit failed (details follow)

报错：org.apache.subversion.javahl.ClientException: RA layer request failed svn: Commit failed (details follow)解决方案：1、进入C:\Users\Administrator\AppData\Roaming\Subversion\auth 删除auth下所有文件（AppData文件默认是隐藏的，记得显示隐藏文件，不然会找不到的）2、打开eclipse中 windows —> Preferences—>SVN 3、将SVN接口改成SVNKit原文：https://www.cnblogs.com/aliqingge/p/9712474.html

java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory的解决

java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory的解决博客分类：问题ApacheJavaTomcatMyeclipse 自己前一段时间出现了这个问题，通过在网上搜索，大概知道了原因，整理下一，以供大家参考。将项目部署好后，启动tomcat后报错，java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory 报这个错说明你用的是tomcat7。目前的MyEclipse的内核为Eclipse3.5.* 尚不能提供直接对tomca...

启动tomcat时报错：java.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException

原因是在web.xml中配置<servlet-mapping>时，servlet-mapping的属性配置错误（红色出为配置错误）： <servlet-mapping> <servlet-name>coreServlet</servlet-name> <url-pattern>/CoreServlet</url-pattern> </servlet-mapping> 正确配置为： <servlet-mapping> <servlet-name>coreServlet</servlet-name> <url-pattern>/.*</url-pattern> </servlet-mapping>其中<url-pattern></url-pattern>可以为你想要的...

Java使用Apache Commons Exec运行本地命令行命令【代码】

首先在pom.xml中添加Apache Commons Exec的Maven坐标： <dependency><groupId>org.apache.commons</groupId><artifactId>commons-exec</artifactId><version>1.3</version> </dependency>示例代码：import java.io.IOException;import org.apache.commons.exec.CommandLine; import org.apache.commons.exec.DefaultExecutor; import org.apache.comm...

java.lang.ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource解决方法

java.lang.ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource解决方法只需把这三个commons-pool.jar、commons-dbcp-1.2.2.jar和commons-collections-3.2.jar包加入到lib里即可解决。这三个包在你本地的tomcat下的lib里，直接buildpath导入就行了，不过有时导包不一定好使，是因为工程lib下的包跟tomcat下的包重复了，导致异常错误如：org.apache.jasper.JasperException: java.lang.ClassCastException: org.apac...

spring boot项目升级到2.0.1，提示java.lang.ClassNotFoundException: org.apache.log4j.Logger错误【代码】【图】

首先肯定是版本出现了一点兼容问题所以我就进入项目，查看依赖树，cd到项目目录下，mvn dependency:tree我看到我的项目原先是1.5.9和现在2.0.1的区别在于org.slf4j的依赖不全【1.5.9.release】【2.0.1.release】那么问题简单了，我就把原先用到的日志依赖全部手动添加1.7.25版本<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <exclusions> <exclus...

Apache Hadoop 运行分布式程序方法总结（Streaming方式与原生JAVA接口）【代码】【图】

1. Hadoop Streaming方式运行程序Hadoop Streaming可以运行除JAVA语言以外，其它的语言编写的程序。其启动脚本示例如下： 1 #!/bin/sh 2 3# 参数合法性判断4 5if [ $# != 7 ]; then 6echo"./bin/avp_platform_startup.sh [USER_NAME] [INPUT_PAT] [OUTPUT_PAT] [MAP_TASKS] [REDUCE_TASKS] [CLASS_ID] [CODE_TYPE]" 7 exit8fi 910# GLOBAL VARS 11 USER_NAME=$112 INPUT_PAT=$213 OUTPUT_PAT=$314 MAP_TASKS=$415 REDUCE_TASK...

错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream排查思路

spark1（默认CDH自带版本）不存在这个问题，主要是升级了spark2（CDHparcel升级）版本安装后需要依赖到spark1的旧配置去读取hadoop集群的依赖包。1./etc/spark2/conf目录需要指向/hadoop1/cloudera-manager/parcel-repo/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/etc/spark2/conf.dist （命令ln -s /hadoop1/cloudera-manager/parcel-repo/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/etc/spark2/conf.dist /etc/spark2/conf...

ArtifactTransferException: Failure to transfer javassist:javassist:jar:3.11.0.GA from http://repo.maven.apache.org/maven

在maven配置struts是，由于我之前下载过hibernate的各种jar包，这里struts和hibernate有一个同名的jar：javassist:jar会冲突解决方法，只需要把struts自动下载的去掉<dependency> 　　<groupId>org.apache.struts</groupId> 　　<artifactId>struts2-core</artifactId> 　　<version>2.3.14</version> <exclusions> 　　　　<exclusion> 　　　　　　<groupId>javassist</groupId> ...

Java异步执行多个HTTP请求的例子（需要apache http类库）【代码】

import java.util.concurrent.CountDownLatch;import org.apache.http.HttpResponse; import org.apache.http.client.config.RequestConfig; import org.apache.http.client.methods.HttpGet; import org.apache.http.concurrent.FutureCallback; import org.apache.http.impl.nio.client.CloseableHttpAsyncClient; import org.apache.http.impl.nio.client.HttpAsyncClients;public class AsyncClientHttpExchangeFutureCallback...

java构建与管理(1) - Apache Ant Short History【代码】

#1. Install Apache Ant<!--1. Make sure you have a Java environment installed, See System Requirements for details.2. Download Ant. http://ant.apache.org/3. Uncompress the downloaded file into a directory.4. Set environmental variables JAVA_HOME to your Java environment, ANT_HOME to the directory you uncompressed Ant to, 　　　　　　and add ${ANT_HOME}/bin (Unix) or %ANT_HOME%/bin (Windows) to your...

hive执行query语句时提示错误：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:

hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there‘s no reduce operator org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException: The number of tasks for this job 156028 exceeds the configured limit 5000at org.apache.hadoop.mapred.JobTracker.submitJo...

首页 / JAVA / java – 使用apache tika在doc文件中获取嵌入式资源

java – 使用apache tika在doc文件中获取嵌入式资源

内容导读

内容图文

内容总结

内容备注

内容手机端

【java – 使用apache tika在doc文件中获取嵌入式资源】教程文章相关的互联网学习教程文章

hive 报错 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

JAVA在Windows使用apache commons-csv导出CSV解决方案【代码】

java: 读取D:\maven\apache-maven-3.6.3\maven-repo\javax\javaee-web-api\8.0.1\ 出现 not a zip file【图】

eclipse 提交代码到SVN服务器失败，报org.apache.subversion.javahl.ClientException: RA layer request failed svn: Commit failed (details follow)

java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory的解决

启动tomcat时报错：java.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException

Java使用Apache Commons Exec运行本地命令行命令【代码】

java.lang.ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource解决方法

spring boot项目升级到2.0.1，提示java.lang.ClassNotFoundException: org.apache.log4j.Logger错误【代码】【图】

Apache Hadoop 运行分布式程序方法总结（Streaming方式与原生JAVA接口）【代码】【图】

错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream排查思路

ArtifactTransferException: Failure to transfer javassist:javassist:jar:3.11.0.GA from http://repo.maven.apache.org/maven

Java异步执行多个HTTP请求的例子（需要apache http类库）【代码】

java构建与管理(1) - Apache Ant Short History【代码】

hive执行query语句时提示错误：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:

APACHE - 相关标签

JAVA - 相关标签

嵌入式 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程