java – 从PDF中提取数据的最简单方法是什么?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了java – 从PDF中提取数据的最简单方法是什么?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1696字,纯文字阅读大概需要3分钟。
内容图文
我需要从一些PDF文档中提取数据(使用Java).我需要知道最简单的方法是什么.
我试过iText.这对我的需求来说相当复杂.此外,我猜它不适用于商业项目.所以这不是一个选择.我还试了一下PDFBox,并遇到了各种NoClassDefFoundError错误.
我用谷歌搜索并遇到了其他几个选项,如PDF Clown,jPod,但我没有时间试验所有这些库.我依靠社区通过Java阅读PDF的经验.
请注意,我不需要创建或操作PDF文档.我只需要从中等级别的布局复杂性中提取PDF文档中的文本数据.
请建议从PDF文档中提取文本的最快捷,最简单的方法.谢谢.
解决方法:
我建议尝试Apache Tika. Apache Tika基本上是一个工具包,可以从许多类型的文档中提取数据,包括PDF.
Tika(除了免费)的好处是,它曾经是Apache Lucene的一个子项目,它是一个非常强大的开源搜索引擎. Tika包含一个内置的PDF解析器,它使用SAX内容处理程序将PDF数据传递给您的应用程序.它还可以从加密的PDF中提取数据,它允许您创建或子类化现有的解析器以自定义行为.
代码很简单.要从PDF中提取数据,您需要做的就是创建一个实现Parser接口的Parser类并定义一个parse()方法:
public void parse(
InputStream stream, ContentHandler handler,
Metadata metadata, ParseContext context)
throws IOException, SAXException, TikaException {
metadata.set(Metadata.CONTENT_TYPE, HELLO_MIME_TYPE);
metadata.set("Hello", "World");
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();
xhtml.endDocument();
}
然后,要运行解析器,您可以执行以下操作:
InputStream input = new FileInputStream(new File(resourceLocation));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser parser = new PDFParser();
parser.parse(input, textHandler, metadata);
input.close();
out.println("Title: " + metadata.get("title"));
out.println("Author: " + metadata.get("Author"));
out.println("content: " + textHandler.toString());
内容总结
以上是互联网集市为您收集整理的java – 从PDF中提取数据的最简单方法是什么?全部内容,希望文章能够帮你解决java – 从PDF中提取数据的最简单方法是什么?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。