首页 / PYTHON / Python解析并读取PDF文件内容的方法

Python解析并读取PDF文件内容的方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python解析并读取PDF文件内容的方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4023字，纯文字阅读大概需要6分钟。

内容图文

这篇文章主要介绍了Python解析并读取PDF文件内容的方法,结合实例形式分别描述了Python2.7在win32与win64环境下实现读取pdf的相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python解析并读取PDF文件内容的方法。分享给大家供大家参考，具体如下：

一、问题描述

利用python，去读取pdf文本内容。

Python解析并读取PDF文件内容的方法 - 文章图片

二、效果

Python解析并读取PDF文件内容的方法 - 文章图片

三、运行环境

python2.7

四、需要安装的库

pip install pdfminer

五、实现源代码

代码1（win64）

# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
time1=time.time()
import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
result=[]
class CPdf2TxtManager():
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)
    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()
    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表，每次处理一个page的内容
    for page in doc.get_pages(): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      for x in layout:
        if hasattr(x, "get_text"):
          # print x.get_text()
          result.append(x.get_text())
          fileNames = os.path.splitext(filePath)
          with open(fileNames[0] + '.txt','wb') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')
if __name__ == '__main__':
  '''''
   解析pdf 文本，保存到txt文件中
  '''
  path = u'C:/data3.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)
  # print result[0]
  time2 = time.time()
  print u'ok,解析pdf结束!'
  print u'总共耗时：' + str(time2 - time1) + 's'

代码2（win32）

# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
time1=time.time()
import os.path
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
result=[]
class CPdf2TxtManager():
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument(praser)
    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表，每次处理一个page的内容
    for page in PDFPage.create_pages(doc): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      for x in layout:
        if hasattr(x, "get_text"):
          # print x.get_text()
          result.append(x.get_text())
          fileNames = os.path.splitext(filePath)
          with open(fileNames[0] + '.txt','wb') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')
if __name__ == '__main__':
  '''''
   解析pdf 文本，保存到txt文件中
  '''
  path = u'C:/36.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)
  # print result[0]
  time2 = time.time()
  print u'ok,解析pdf结束!'
  print u'总共耗时：' + str(time2 - time1) + 's'

内容总结

以上是互联网集市为您收集整理的Python解析并读取PDF文件内容的方法全部内容，希望文章能够帮你解决Python解析并读取PDF文件内容的方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/426638.html

来源：【匿名】

【上一篇】Python使用OpenCV进行标定【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python解析并读取PDF文件内容的方法】教程文章相关的互联网学习教程文章

Python如何实现从PDF文件中爬取表格数据（代码示例）【图】

本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。??本文将展示一个稍微不一样点的爬虫。??以往我们的爬虫都是从网络上爬取数据，因为网页一般用HTML,CSS,JavaScript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据...

Python解析并读取PDF文件内容的方法【图】

这篇文章主要介绍了Python解析并读取PDF文件内容的方法,结合实例形式分别描述了Python2.7在win32与win64环境下实现读取pdf的相关操作技巧,需要的朋友可以参考下本文实例讲述了Python解析并读取PDF文件内容的方法。分享给大家供大家参考，具体如下：一、问题描述利用python，去读取pdf文本内容。二、效果三、运行环境python2.7四、需要安装的库pip install pdfminer五、实现源代码代码1（win64）# coding=utf-8 import sys reload(s...

Python实现合并同一个文件夹下所有PDF文件的方法示例【图】

这篇文章主要介绍了Python实现合并同一个文件夹下所有PDF文件的方法,涉及Python针对pdf文件的读取、判断、解密、写入合并等相关操作技巧,需要的朋友可以参考下本文实例讲述了Python实现合并同一个文件夹下所有PDF文件的方法。分享给大家供大家参考，具体如下：一、需求说明下载了网易云课堂的吴恩达免费的深度学习的pdf文档，但是每一节是一个pdf，我把这些PDF文档放在一个文件夹下，希望合并成一个PDF文件。于是写了一个python程序...

Python结合ImageMagick实现多张图片合并为一个pdf文件的方法【图】

这篇文章主要介绍了Python结合ImageMagick实现多张图片合并为一个pdf文件的方法,结合实例形式分析了Python将图片文件转换为pdf文件的相关操作技巧,需要的朋友可以参考下本文实例讲述了Python结合ImageMagick实现多张图片合并为一个pdf文件的方法。分享给大家供大家参考，具体如下：前段时间买了不少书，现在手头的书籍积累的越来越多，北京这边租住的小屋子空间越来越满了。自从习惯了笔记本触摸板的手势操作之后，我偶觉得使用电脑...

Python实现抓取HTML网页并以PDF文件形式保存的方法

这篇文章主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下本文实例讲述了Python实现抓取HTML网页并以PDF文件形式保存的方法。分享给大家供大家参考，具体如下：一、前言今天介绍将HTML网页抓取下来，然后以PDF保存，废话不多说直接进入教程。二、准备工作1. PyPDF2的安装使用（用来合并PDF）：...

Python生成pdf文件的方法

本文实例演示了Python生成pdf文件的方法，是比较实用的功能，主要包含2个文件。具体实现方法如下： pdf.py文件如下：#!/usr/bin/python from reportlab.pdfgen import canvas def hello():c = canvas.Canvas("helloworld.pdf")c.drawString(100,100,"Hello,World")c.showPage()c.save() hello()diskreport.py文件如下：#!/usr/bin/env python import subprocess import datetime from reportlab.pdfgen import canvas from reportl...

利用Python的Django框架生成PDF文件的教程

便携文档格式 (PDF) 是由 Adobe 开发的格式，主要用于呈现可打印的文档，其中包含有 pixel-perfect 格式，嵌入字体以及2D矢量图像。 You can think of a PDF document as the digital equivalent of a printed document; indeed, PDFs are often used in distributing documents for the purpose of printing them. 可以方便的使用 Python 和 Django 生成 PDF 文档需要归功于一个出色的开源库， ReportLab (http://www.reportlab.o...

Python实现简单拆分PDF文件的方法

本文实例讲述了Python实现简单拆分PDF文件的方法。分享给大家供大家参考。具体如下：依赖pyPdf处理PDF文件切分pdf文件使用方法： 1）将要切分的文件放在input_dir目录下 2）在configure.txt文件中设置要切分的份数（如要切分4份，则设置part_num=4） 3）执行程序 4）切分后的文件保存在output_dir目录下 5）运行日志写在pp_log.txt中 P.S. 本程序可以批量切割多个pdf文件from pyPdf import PdfFileWriter, PdfFileReader import...

python生成一个pdf文件

参考地址 https://www.jianshu.com/p/489c3aff61bd/ 1 安装 pip install pdfkit 2 安装 Wkhtmltopdf 可百度 3 import pdfkit将网页生成pdf文件 def url_to_pdf(url, to_file):# 将wkhtmltopdf.exe程序绝对路径传入config对象path_wkthmltopdf = rC:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.execonfig = pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)# 生成pdf文件，to_file为文件路径pdfkit.from_url(url, to_...

python——提取pdf（将pdf文件转成txt）【代码】

# -*- coding: utf-8 -*- # from pdfminer.pdfparser import PDFParser # from pdfminer.pdfdocument import PDFDocument # from pdfminer.pdfpage import PDFPage # from pdfminer.pdfpage import PDFTextExtractionNotAllowed # from pdfminer.pdfinterp import PDFResourceManager # from pdfminer.pdfinterp import PDFPageInterpreter # from pdfminer.pdfdevice import PDFDevice # from pdfminer.layout import * # from...

Python_读取PDF文件文本内容【代码】

经常爬虫的小伙伴，或遇到一些PDF文件的处理，可能我们要下载这个文件，并要识别里面的文本内容，今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字；话不多说，直接上代码 from pdfminer.converter import PDFPageAggregator from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.layout import LTTextBoxHorizontal, LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAllowed from pdfm...

办公系列：Python提取PDF文件中的表格文本保存为Excel文件【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来自腾讯云作者：Python知识大全想要学习Python？有问题得不到第一时间解决？来看看这里“1039649593”满足你的需求，资料都已经上传至文件中，可以自行下载！还有海量最新2020python学习资料。点击查看问题描述：提取PDF文件中的表格文字，保存为Excel文件，PDF中每个表格的文本写入Excel文件中的一个工...

怎样用Python将PDF文件转为图片？

前几天有一位粉丝向Paradoxical求助，他工作上需要把PDF文件截图为图片，但是数量太多了，不知道该怎么办。于是Paradoxical在网上查阅资料，发现可以使用PyMuPDF这个库将PDF文件转变为图片。下面就是简单的例子。#导入fitz，安装好PyMuPDF后即可导入import fitz#使用open()打开PDF文件并赋值给doc变量doc = fitz.open(file)#遍历文件的每一页for page in doc: ? ?#创建pix对象 ? ?pix = page.getPixmap() ? ?#根据页码生成png格式的...

Python实现多个pdf文件合并【图】

背景由于工作原因，经常需要将多个pdf文件合并后打印，有时候上网找免费合并工具比较麻烦（公司内网不能访问公网），于是决定搞个小工具。具体实现需要安装 PyPDF2 pip install PyPDF2 代码 # -*- coding=utf-8 -*- """ 功能: 将当前目录下的所有pdf文件合并为一个文件，新文件命名为 all_merge_年月日_时分秒.pdf 被合并的pdf文件不包含 all_merge 开头的文件 """import PyPDF2 import pathlib import datetimedef do_merge(t...

Python 实现加密过的PDF文件转WORD格式

更多python教程请到：菜鸟教程www.piaodoo.com 人人影视www.sfkyty.com 实现方法简介许多文件都支持转换为PDF格式，诸如Word，Excel，PowerPoint，Cad以及图片格式。所以pdf从学校到职场，都可以看到pdf文件的身影。为了保证了文件的安全性，正常情况下无法对pdf的内容进行编辑。但是相应的我们就无法修改pdf的内容，也不便于pdf资料的使用。虽然现在市面上有很多 pdf 转 word 软件，比如 wps，但大多数的软件是要收费的，并...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python解析并读取PDF文件内容的方法

Python解析并读取PDF文件内容的方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python解析并读取PDF文件内容的方法】教程文章相关的互联网学习教程文章

Python如何实现从PDF文件中爬取表格数据（代码示例）【图】

Python解析并读取PDF文件内容的方法【图】

Python实现合并同一个文件夹下所有PDF文件的方法示例【图】

Python结合ImageMagick实现多张图片合并为一个pdf文件的方法【图】

Python实现抓取HTML网页并以PDF文件形式保存的方法

Python生成pdf文件的方法

利用Python的Django框架生成PDF文件的教程

Python实现简单拆分PDF文件的方法

python生成一个pdf文件

python——提取pdf（将pdf文件转成txt）【代码】

Python_读取PDF文件文本内容【代码】

办公系列：Python提取PDF文件中的表格文本保存为Excel文件【图】

怎样用Python将PDF文件转为图片？

Python实现多个pdf文件合并【图】

Python 实现加密过的PDF文件转WORD格式

PYTHON - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程