首页 / PYTHON / python-BeautifulSoup：提取不在给定标签中的文本

python-BeautifulSoup：提取不在给定标签中的文本

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-BeautifulSoup：提取不在给定标签中的文本，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1625字，纯文字阅读大概需要3分钟。

内容图文

我有以下变量,标头等于：

<p>Andrew Anglin<br/>
<strong>Daily Stormer</strong><br/>
February 11, 2017</p>

我只想从此变量中提取日期2017年2月11日.
如何在python中使用BeautifulSoup做到这一点？

解决方法:

如果您知道日期始终是header变量中的最后一个文本节点,则可以访问.contents property并获取返回列表中的最后一个元素：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

header.contents[-1].strip()
> February 11, 2017

或者,作为MYGz pointed out in the comments below,您可以在新行处分割文本并检索列表中的最后一个元素：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

header.text.split('\n')[-1]
> February 11, 2017

如果您不知道日期文本节点的位置,那么另一种选择是解析出所有匹配的字符串：

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

re.findall(r'\w+ \d{1,2}, \d{4}', header.text)[0]
> February 11, 2017

但是,正如您的标题所暗示的那样,如果您只想检索未用element标签包裹的文本节点,则可以使用以下内容来过滤掉元素：

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

text_nodes = [e.strip() for e in header if not e.name and e.strip()]

请记住,由于第一个文本节点未包装,这将返回以下内容：

> ['Andrew Anglin', 'February 11, 2017']

当然,您也可以结合使用最后两个选项,并在返回的文本节点中解析出日期字符串：

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

for node in header:
    if not node.name and node.strip():
        match = re.findall(r'^\w+ \d{1,2}, \d{4}$', node.strip())
        if match:
            print(match[0])

> February 11, 2017

内容总结

以上是互联网集市为您收集整理的python-BeautifulSoup：提取不在给定标签中的文本全部内容，希望文章能够帮你解决python-BeautifulSoup：提取不在给定标签中的文本所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/683980.html

来源：【匿名】

【上一篇】如何使用Python根据动态条件分隔数据帧的行【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-BeautifulSoup：提取不在给定标签中的文本】教程文章相关的互联网学习教程文章

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

原文：https://blog.csdn.net/suibianshen2012/article/details/62040460?utm_source=copy # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen...

python selenium-webdriver 标签页切换（十四）【代码】【图】

测试过程中有时候会遇到点击某个按钮或者链接会弹出新的窗口，这时候我们的操作的页面还保持着最初打开页面，但是此时我们需要操作新打开的页面上的功能，这个时候我们需要切换一下标签页。　　其实页面的切换与frame的切换比较相识，一种切换时本页面内frame的操作，而标签页面是多页面的操作，道理很相似。下面讲解下操作页面标签会涉及到那些方法。 driver.current_window_handle 　　 #获取当前窗口的句...

python3生成标签云【代码】【图】

标签云是现在大数据里面最喜欢使用的一种展现方式，其中在python3下也能实现标签云的效果，贴图如下：-------------------进入正文---------------------首先要安装以下几个库：1#!/usr/bin/python3.42# -*- coding: utf-8 -*-34# http://www.lfd.uci.edu/~gohlke/pythonlibs/#cx_freeze5# 万能仓库下载pygame6# pip3下载simplejson还有最重要的库：pip3 install pytagcloud 或者去官网下载：https://pypi.python.org/pypi/pytagcl...

PythonNote03_HTML标签【代码】【图】

1<!DOCTYPE> 2<html> 3<head> 4<meta charset = "utf-8"/> 5<meta name="Keywords" content=""/> 6<mata name = "description" content = ""/> 7<title>03_复习随敲_0111</title> 8<style> 9 *{margin: 0;padding: 0;} 10 h1{text-align: center;color: red;} 11 ol{margin: 0 0 0 30px} 12 .zd{color: red;font-size: 20} 13</style> 14</head> 15<body> 16<h1>03_复习笔记_...

python 获取html置顶标签文本信息【代码】

class MyParser(HTMLParser):def __init__(self,key):self.data=[]self.key=keyself.falg=Falseself.linkname=‘‘HTMLParser.__init__(self)def handle_starttag(self,tag,attrs):if self.key and tag ==self.key:self.falg=Truedef handle_data(self,data):if self.falg and data:self.data.append(unicode(eval(repr(data)),"utf-8"))def handle_endtag(self,tag):if self.key and tag ==self.key:self.falg=Falsedef getresult...

利用python和shell脚本生成train.txt的标签文件【代码】【图】

1. 用shell脚本生成带绝对路径的train.txt例如我要生成如下形式的带标签的文件，如图:(如有两个标签：0 和 1)shell脚本如下：这样标签0写入了train.txt 1# /usr/bin/env sh 2 DATA=/home/ttwang/Desktop/Texture/03 DATASAVE=/home/ttwang/Desktop4 5 echo "Create train.txt..." 6 7# /usr/bin/env sh 8 find $DATA -name Grass*.jpg | sed "s/$/ 1/" >>$DATASAVE/train.txt910 echo "Done.."再写一个脚本，这样就把指定文件下的想...

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类【代码】【图】

原文链接：http://tecdat.cn/?p=8640 介绍在本文中，我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类模型，该模型可分析文本注释并预测与该注释关联的多个标签。多标签分类问题实际上是多个输出模型的子集。在本文结尾，您将能够对数据执行多标签文本分类。数据集数据集包含来自Wikipedia对话页编辑的评论。评论可以属于所有这些类别，也可以属于这些类别的子集，这使其成为多标签分类问题。将...

python-TensorFlow RuntimeError：在SavedModel中找不到与标签服务相关联的MetaGraphDef【代码】

当我使用simple_save保存模型时,尝试加载模型时出现运行时错误. 要保存的代码是：session = Session() inputs = tf.placeholder(dtype=tf.float32, shape=(None, height, width, in_channel_size), name='input_img') model = Some_Model(inputs, num_classes=no_of_defects, is_training=False) logits, _ = model.build_model() predictor = tf.nn.softmax(self.logits, name='logits_to_softmax') feed_dict = {inputs: inputs}...

python – Tensorflow中的多标签分类器【代码】

我想用TensorFlow开发一个多标签分类器,我试图意味着存在多个包含多个类的标签.为了说明你可以想象这样的情况： > label-1类：灯光下雨,下雨,局部下雨,没有下雨>标签-2类：晴天,部分多云,多云,非常多云. 我想用神经网络对这两个标签进行分类.现在,我为每个(label-1,label-2)对类使用了不同的类标签.这意味着我有4 x 4 = 16个不同的标签. 通过训练我的模型目前的损失cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(pr...

python-模板片段缓存似乎不适用于某些自定义模板标签【代码】

我一直在django应用程序中实现缓存,并通过缓存API和模板片段缓存对每个视图进行缓存.在我的某些页面上,我使用了一个自定义的django模板标签,该标签是由第三方开发人员提供的,它在其模板标签中包含一些参数,然后向远程服务器发出请求,并通过XML返回响应,并且然后将结果呈现在我的页面中.太好了-我以为我可以使用片段缓存轻松地缓存它,所以我：{% load cache %} {% cache 500 request.user.username %} {% load third party custom t...

python用来正常显示中文标签 plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]错误【图】

用来正常显示中文标签显示错误代码plt.rcParams[‘font.sans-serif’] = [‘SimHei’]无法运行我的环境：在JetBrains PyCharm Community Edition 2018.3.5 x64中，解释器是Anaconda3中的Python3.5 错误根源代码：plt.rcParams['font.sans-serif'] = ['SimHei'] 错误根源：Anaconda3的字体库中没有中文字simhei.ttf 如下图是我添加之后的文件夹字体显示解决办法 1、下载simhei.ttf字体，这里提供一个链接SimHei.ttf 2、找到你的解...

python – 使用元组时,ChoiceField不显示空标签【代码】

我想做什么我将在我的数据库中保存有关比赛的数据.我希望能够通过某些标准搜索比赛 – 尤其是比赛类型. 关于比赛类型比赛类型保存在元组中.稍微缩短的例子：COMPETITION_TYPE_CHOICES = ((1, 'Olympic Games'),(2, 'ISU Championships'),(3, 'Grand Prix Series'), )这些在模型中使用如此(再次 – 这是模型的缩短/简化版本)：class Competition(models.Model):name = models.CharField(max_length=256)type = models.IntegerFiel...

python – 日期时间x轴matplotlib标签导致不受控制的重叠【代码】

我正在尝试用’pandas.tseries.index.DatetimeIndex’绘制一个大熊猫系列. x轴标签固执地重叠,即使有几个建议的解决方案,我也无法使它们呈现出来. 我试过stackoverflow solution suggesting to use autofmt_xdate,但没有用. 我也尝试了plt.tight_layout()的建议,但未能生效.ax = test_df[(test_df.index.year ==2017) ]['error'].plot(kind="bar") ax.figure.autofmt_xdate() #plt.tight_layout() print(type(test_df[(test_df.ind...

Python清理HTML标签类似PHP的strip_tags函数功能（二）【图】

没有发现Python 有现成的类似功能模块，所以昨天写了个简单的 strip_tags 但还有些问题，今天应用到采集上时进行了部分功能的完善， 1. 对自闭和标签处理 2. 以及对标签参数的过滤 def strip_tags(html, save_tags=None, save_attrs=None): result = [] start = [] data = [] # 特殊的自闭和标签, 按 HTML5 的规则, 如不再使用 /> 结尾 special_end_tags = [ area, base, br, col, embed, hr, ...

Python实现类似PHP的strip_tags函数功能，并且可以自定义设置保留标签【图】

最近在研究 Python ，发现用的还是很不习惯，很多PHP里面很简单的功能在Python 里面都得找半天，而且很多功能都得自己实现。今天做个采集，需要过滤内容中的标签，搞了一下午，貌似终于搞出来了，测试了下达到了预想的效果，废话不多说贴上代码吧 from html.parser import HTMLParserdef strip_tags(html, save=None): result = [] start = [] data = [] def starttag(tag, attrs): if tag not in save: ...

首页 / PYTHON / python-BeautifulSoup：提取不在给定标签中的文本

python-BeautifulSoup：提取不在给定标签中的文本

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-BeautifulSoup：提取不在给定标签中的文本】教程文章相关的互联网学习教程文章

23-python用BeautifulSoup用抓取a标签内所有数据【代码】

python selenium-webdriver 标签页切换（十四）【代码】【图】

python3生成标签云【代码】【图】

PythonNote03_HTML标签【代码】【图】

python 获取html置顶标签文本信息【代码】

利用python和shell脚本生成train.txt的标签文件【代码】【图】

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类【代码】【图】

python-TensorFlow RuntimeError：在SavedModel中找不到与标签服务相关联的MetaGraphDef【代码】

python – Tensorflow中的多标签分类器【代码】

python-模板片段缓存似乎不适用于某些自定义模板标签【代码】

python用来正常显示中文标签 plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]错误【图】

python – 使用元组时,ChoiceField不显示空标签【代码】

python – 日期时间x轴matplotlib标签导致不受控制的重叠【代码】

Python清理HTML标签类似PHP的strip_tags函数功能（二）【图】

Python实现类似PHP的strip_tags函数功能，并且可以自定义设置保留标签【图】

PYTHON - 相关标签

提取 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程