首页 / PYTHON / 使用Beautiful Soup Python模块用纯文本替换标签

使用Beautiful Soup Python模块用纯文本替换标签

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Beautiful Soup Python模块用纯文本替换标签，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3743字，纯文字阅读大概需要6分钟。

内容图文

我正在使用Beautiful Soup从网页中提取“内容”.我知道有些人之前已经问了这个question,他们都指向了美丽的汤,这就是我开始使用它的方式.

我能够成功地获得大部分内容,但是我遇到了一些标记,这些标记是内容的一部分. (我开始的基本策略是：如果节点中有多个x-chars,那么它就是内容).我们以下面的html代码为例：

<div id="abc">
    some long text goes <a href="/"> here </a> and hopefully it 
    will get picked up by the parser as content
</div>

results = soup.findAll(text=lambda(x): len(x) > 20)

当我使用上面的代码来获取长文本时,它会在标签处中断(标识的文本将从’并且希望……’开始).所以我尝试用纯文本替换标记,如下所示：

anchors = soup.findAll('a')

for a in anchors:
  a.replaceWith('plain text')

上面的方法不起作用,因为Beautiful Soup将字符串作为NavigableString插入,当我使用带有len(x)>的findAll时会导致同样的问题. 20.我可以使用正则表达式首先将html解析为纯文本,清除所有不需要的标签,然后调用Beautiful Soup.但我想避免两次处理相同的内容 – 我正在尝试解析这些页面,以便我可以显示给定链接的内容片段(非常像Facebook Share) – 如果一切都是用Beautiful Soup完成的,我认为它会更快.

所以我的问题是：有没有办法’清除标签’并用’纯文本’替换它们使用Beautiful Soup.如果没有,最好的方法是什么？

谢谢你的建议！

更新：Alex的代码在示例示例中运行良好.我也试过各种边缘情况,它们都运行良好(下面的修改).所以我在现实生活中的网站上试了一下,然后我遇到了困扰我的问题.

import urllib
from BeautifulSoup import BeautifulSoup

page = urllib.urlopen('http://www.engadget.com/2010/01/12/kingston-ssdnow-v-dips-to-30gb-size-lower-price/')

anchors = soup.findAll('a')
i = 0
for a in anchors:
    print str(i) + ":" + str(a)
    for a in anchors:
        if (a.string is None): a.string = ''
        if (a.previousSibling is None and a.nextSibling is None):
            a.previousSibling = a.string
        elif (a.previousSibling is None and a.nextSibling is not None):
            a.nextSibling.replaceWith(a.string + a.nextSibling)
        elif (a.previousSibling is not None and a.nextSibling is None):
            a.previousSibling.replaceWith(a.previousSibling + a.string)
        else:
            a.previousSibling.replaceWith(a.previousSibling + a.string + a.nextSibling)
            a.nextSibling.extract()
    i = i+1

当我运行上面的代码时,我收到以下错误：

0:<a href="http://www.switched.com/category/ces-2010">Stay up to date with 
Switched's CES 2010 coverage</a>
Traceback (most recent call last):
  File "parselink.py", line 44, in <module>
  a.previousSibling.replaceWith(a.previousSibling + a.string + a.nextSibling)
 TypeError: unsupported operand type(s) for +: 'Tag' and 'NavigableString'

当我查看HTML代码时,“保持最新状态..”之前没有任何兄弟姐妹(我没有看到以前的兄弟姐妹如何工作,直到我看到Alex的代码并根据我的测试看起来它正在寻找’文字’因此,如果没有先前的兄弟,我很惊讶它没有通过a.previousSibling的if逻辑是None和a; nextSibling是None.

能不能让我知道我做错了什么？

-ecognium

解决方法:

适用于您的具体示例的方法是：

from BeautifulSoup import BeautifulSoup

ht = '''
<div id="abc">
    some long text goes <a href="/"> here </a> and hopefully it 
    will get picked up by the parser as content
</div>
'''
soup = BeautifulSoup(ht)

anchors = soup.findAll('a')
for a in anchors:
  a.previousSibling.replaceWith(a.previousSibling + a.string)

results = soup.findAll(text=lambda(x): len(x) > 20)

print results

发出的

$python bs.py
[u'\n    some long text goes  here ', u' and hopefully it \n    will get picked up by the parser as content\n']

当然,您可能需要更加小心,即,如果没有a.string,或者如果a.previousSibling为None,那么您将需要合适的if语句来处理此类极端情况.但我希望这个总体思路可以帮到你. (事实上??,你可能还希望合并下一个兄弟,如果它是一个字符串 – 不确定如何与你的启发式len(x)> 20一起玩,但是例如说你有两个9个字符的字符串,其中< a>在中间包含一个5个字符的字符串,也许你想把这个字体作为一个“23个字符的字符串”？我无法分辨,因为我不明白你的启发式的动机). 我想象除了< a>您还要删除其他标签,例如< b>或者< strong>,也许< p>和/或< br>等…？我想这也取决于你的启发式背后的实际想法是什么！

内容总结

以上是互联网集市为您收集整理的使用Beautiful Soup Python模块用纯文本替换标签全部内容，希望文章能够帮你解决使用Beautiful Soup Python模块用纯文本替换标签所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/698338.html

来源：【匿名】

【上一篇】python – 访问pyomo约束中发生的所有变量【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用Beautiful Soup Python模块用纯文本替换标签】教程文章相关的互联网学习教程文章

Python模块之optparse【代码】

参考：http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.htmlhttps://docs.python.org/2/library/optparse.htmleg:# This is the blocking Get Poetry Now! client.import datetime, optparse, socketdef parse_args():usage = """usage: %prog [options] [hostname]:port ...This is the Get Poetry Now! client, blocking edition. Run it like this:python get-poetry.py port1 port2 port3 ...If you are in t...

Python模块-4【代码】

一、模块模块即 .py文件，同时模块遵循Python变量命名规范，不使用中文、特殊字符。模块名不要和系统模块名冲突，最好先查看是否已经存在该模块，检查的方法是在Python交互环境执行import 模块名，如果成功说明系统存在此模块。#!/usr/bin/env python3 # -*- coding: utf-8 -*-‘a test module‘__author__ = ‘ruixi‘import sysdef test():args = sys.argvif len(args) == 1:print(‘Hello world!‘)elif len(args) == 2:print(‘...

python模块--subprocess【代码】

subprocess模块 subprocess模块用于帮助我们在python代码中去执行一些系统命令，在执行python程序时，该模块会创建出一个子进程，来运行外部程序。该模块拥有多个方法，具体如下：subprocess.call()直接打印系统命令的执行结果，如果执行成功，返回状态码为0，否则为1，例如：#执...

Python模块：logging、【代码】【图】

logging模块：很多程序都有记录日志的需求，并且日志中包含的信息既有正常的程序访问日志，还可能有错误、警告等信息输出。Python的logging模块提供了标准的日志接口，你可以通过它存储各种格式的日志。logging的日志可以分为debug（）、info（）、warning（）、error（） and critical（）5个级别（按顺序，级别越来越高）。最简单的用法：import logging logging.warning(‘User [neo] attempted wrong password more than 3 tim...

如何用C++ 写Python模块扩展（二）【代码】【图】

Python模块包含的类创建（下）类的方法表创建直接上代码 static PyMethodDef VCam_MethodMembers[] = //类的所有成员函数结构列表同样是以全NULL结构结束 {{ "set_fill", (PyCFunction)VCam_SetFill, METH_VARARGS, "Set video resize method (0: Aspect fit, 1: Aspect fill, 2: Stretch), used when input frame size differs from VCam output size." },{ "mirror", (PyCFunction)VCam_Mirror, METH_VARARGS, "Mirror the...

使用pip下载/安装python模块【代码】

C:\Python\Python35\Scripts>pip3.5.exe install pyperclip Collecting pyperclipDownloading pyperclip-1.5.27.zip Installing collected packages: pyperclipRunning setup.py install for pyperclip ... done Successfully installed pyperclip-1.5.27 You are using pip version 8.1.1, however version 9.0.1is available. You should consider upgrading via the ‘python -m pip install --upgrade pip‘ command.pip安装py...

python模块——urllib【代码】【图】

1. 网页操作urllib.urlopen(url[,data[,proxies]])打开一个url，返回一个文件对象，然后可以进行类似文件对象操作url：远程数据的路径，即网址data：表示以GET或者POST方式请求url的数据proxes：设置代理urlopen返回对象提供方法:read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息getcode()：返回Http状态码。如...

使用python模块plotdigitizer抠取论文图片中的数据【代码】【图】

技术背景对于各行各业的研究人员来说，经常会面临这样的一个问题：有一篇不错的文章里面有很好的数据，但是这个数据在文章中仅以图片的形式出现。而假如我们希望可以从该图片中提取出数据，这样就可以用我们自己的形式重新来展现这些数据，还可以额外再附上自己优化后的数据。因此从论文图片中提取数据，是一个非常实际的需求。这里以前面写的量子退火的博客为例，博客中有这样的一张图片：在这篇文章中，我们将介绍如何使用pytho...

Python模块安装与读取Excel【图】

今天，想用Python读取一下Excel中的数据，从网上查找了一个例子，是要安装相关的模块: 1:到python官网下载http://pypi.python.org/pypi/xlrd模块安装，前提是已经安装了python环境。下好之后，把xlrd-0.9.3.tar.gz解压后,把xlrd目录直接拷贝到 python安装目录下的 Lib/site-packages/ 下，即可或者运行CMD安装: 和手工解压的也一样，会把xlrd复制到C:\Python27\Lib\site-packages下:读取Excel数据的代码 #!/usr/b...

PYTHON 模块总结

OS 模块#os模块就是对操作系统进行操作，使用该模块必须先导入模块：import os#getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹)result = os.getcwd()print(result)#chdir()改变当前工作目录os.chdir(‘/home/sy‘)result = os.getcwd()print(result)open(‘02.txt‘,‘w‘)#操作时如果书写完整的路径则不需要考虑默认工作目录的问题,按照实际书写路径操作open(‘/home/sy/下载/02.txt‘,‘w‘)#listdir() 获...

Python - 模块【代码】

概述python 模块写完回头一看, 感觉是不是有点长明明可以拆分得更细的背景复习 python 也说不上复习, 因为之前就没学进去单个脚本的内容, 我暂时还没有复习到囧...模块对我来说, 一直是一个比较模糊的概念特别是学过Java 的同学模块有点像类, 有点像包但又不能完全对上反正对我来说, 确实有点困扰准备oswin10python3.7.0shellmintty 2.9.41. 模块的引入概述模块的引入场景场景1: 使用 math 库场景刚开始学习 python 的时...

python 模块和包深度学习理解

python 模块和包简单说相当于命名空间1，python 模块 python模块就是一个文件，里面有函数，变量等 import 模块模块.方法 from 模块 import function from 模块 import * __name__ ==‘__main__‘ 是判断是自己运行模块还是被调用执行 if __name__==‘__main__‘: print(‘login主程序运行的‘) else: print(‘login被运行行的‘)2，python 包模块的集合和__in...

python:模块定义、导入、优化【代码】

1.定义模块:用来从逻辑上组织python代码(变量，函数，类，逻辑:实现一个功能)，本质就是.py结尾的python文件(文件名：test.py,对应的模块名:test)2.导入方法import module_nameimport module1_name,modoule2_namefrom module_alex import *from module_alex import logger as logger_alex3.import本质(路径搜索和搜索路径) 导入模块的本质就是把python文件解释一遍 import module_name ----->找到module_name所在路径，加...

Python模块和包

一模块和包概述：(1)模块是组织Python代码的方法，包则是用来组织模块的。每一个文件都是一个模块，模块导入其它模块之后就可以使用导入模块定义的变量名。(2)模块的作用：代码重用、系统命名空间的划分和共享服务和数据。(3)Python自带标准库模块，这个集合大约200个模块，主要包括：操作系统接口、对象永久保存、文字模块匹配、网络和Internet脚本和GUI等。(4)模块搜索路径：*模块搜索顺序：主目录->PYTHONPATH环境变量目录->标...

python_8(模块)【代码】

第1章模块 1.1 概述 1.2 模块的分类 1.2.1 内置模块 1.2.2 扩展模块 1.2.3 模块安装 1.2.4 自定义模块第2章模块之内置模块 2.1 collections模块 2.1.1 collections数据类型 2.1.2 nametuple 2.1.3 可命名元组 2.1.4 queue 模块 2.1.5 Ordereddict有序字典 2.1.6 defaultfict 默认字典 2.2 time模块 2.2.1 sleep 2.3 时间的表示格式 2.3.1 时间戳(timestamp) 2.3.2 格式化时间(Format String) 2.3.3 元组(struct_time) 2.3.4 时间...

首页 / PYTHON / 使用Beautiful Soup Python模块用纯文本替换标签

使用Beautiful Soup Python模块用纯文本替换标签

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Beautiful Soup Python模块用纯文本替换标签】教程文章相关的互联网学习教程文章

Python模块之optparse【代码】

Python模块-4【代码】

python模块--subprocess【代码】

Python模块：logging、【代码】【图】

如何用C++ 写Python模块扩展（二）【代码】【图】

使用pip下载/安装python模块【代码】

python模块——urllib【代码】【图】

使用python模块plotdigitizer抠取论文图片中的数据【代码】【图】

Python模块安装与读取Excel【图】

PYTHON 模块总结

Python - 模块【代码】

python 模块和包深度学习理解

python:模块定义、导入、优化【代码】

Python模块和包

python_8(模块)【代码】

PYTHON - 相关标签

替换 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程