Python pdftotext ShellError使用textract
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python pdftotext ShellError使用textract,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1448字,纯文字阅读大概需要3分钟。
内容图文
![Python pdftotext ShellError使用textract](/upload/InfoBanner/zyjiaocheng/965/8d60fbf4e05746fcbf9b9ea1aa7753f9.jpg)
当我在包含PDF文件的目录上运行以下Python脚本时,我不断收到此错误:
ShellError: The command
pdftotext "path/to/pdf/title.pdf" -
failed with exit code 1
————- stdout ————-
————- stderr ————-
‘pdftotext’ is not recognized as an internal or external command,
operable program or batch file.
我已经验证pdf2text和PDFMiner已正确安装.这是我第一次使用textract,它适用于所有其他文件类型(Word文档,PowerPoint文档,Excel文档等).当pdf2text是实际库时,为什么进程调用pdftotext?
import os
import os.path
import textract
pdf_path = 'path/to/pdf/'
for fname in os.listdir(pdf_path):
if os.path.isfile(pdf_path+fname ):
f = textract.process(pdf_path+fname )
if 'string' in f:
print fname
谢谢!
解决方法:
我自己完成了这个问题.据我所知,令人困惑的是pdftotext是一个在linux中很流行的命令实用程序,而pdf2text是PDFMiner包的包装器.我的poppler和pdftotext的windows二进制文件来自archive.org链接,所以我觉得这里没有正确的链接,但here’s a link我在维基百科页面上找到了一个windows二进制文件.从我的能力来看,pdftotext往往比pdfMiner提供更好的输出.我遇到的问题是产生了同样的错误,你收到的是pdftotext.exe已安装,并且在我的路径中,但如果我没有通过cmdline启动python脚本,我会收到错误.
如果你最终下载它,它附带一些其他很好的实用程序,如pdftohtml和pdftops.个人最喜欢的是pdftotext -layout whatever.txt,它将pdf打印到stdout作为明文,一切就绪.
tl; dr尝试运行打开cmdline并运行程序.如果您仍然可以尝试(1)安装Windows二进制文件(假设您在Windows上)或(2)尝试更新textract
pip install textract --upgrade
希望这有帮助!
内容总结
以上是互联网集市为您收集整理的Python pdftotext ShellError使用textract全部内容,希望文章能够帮你解决Python pdftotext ShellError使用textract所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。