首页 / PYTHON / python – 如何在BeautifulSoup中获取搜索的上下文？

python – 如何在BeautifulSoup中获取搜索的上下文？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何在BeautifulSoup中获取搜索的上下文？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2717字，纯文字阅读大概需要4分钟。

内容图文

我正在解析由各种HTML实体组成的网页,其中包括以下片段：

<p style="text-align: center;"><img src="http://example.com/smthg.png" alt="thealtttext" /></p>
<p style="text-align: center;"><strong>My keywords : <a href="http://example.com/hello.html" target="_blank"> some text </a> </strong></p>
<p style="text-align: center;"><strong>some other words : <a href="http://example.com/anotherlink.html" target="_blank"> some other words</a></strong></p>

我对我的关键字后面的网址感兴趣(上例中的http://example.com/hello.html).之后我的关键字和链接的组合在页面中是唯一的.

现在我使用正则表达式来提取URL：

import requests
import re

def getfile(link):
    r = requests.get(link).text

    try:
        link = re.search('My keyword : <a href="(.+)" target', r).group(1)
    except AttributeError:
        print("no direct link for {link}".format(link=link))
    else:
        return link

 print(getfile('http://example.com'))

这种方法在工作时非常依赖于匹配字符串的确切格式.我非常希望使用BeautifulSoup来：

>搜索我的关键字
>得到它的上下文(我的意思是包含该字符串的标记的整个值,我的关键字：< a href =“http://example.com/hello.html”target =“_ blank”> some text < / a>在上面的情况下)
>通过BeautifulSoup再次运行它,以便在< a>中提取URL.

我在第二部分失败了,我只能得到

[u'My keywords : ']

在尝试字符串搜索时

import bs4
import re

thehtml = '''
    <p style="text-align: center;"><img src="http://example.com/smthg.png" alt="thealtttext" /></p>
    <p style="text-align: center;"><strong>My keywords : <a href="http://example.com/hello.html" target="_blank"> some text </a> </strong></p>
    <p style="text-align: center;"><strong>some other words : <a href="http://example.com/anotherlink.html" target="_blank"> some other words</a></strong></p>
    '''
soup = bs4.BeautifulSoup(thehtml)
k = soup.find_all(text=re.compile("My keywords"))
print(k)

如何获取周围标签的全部内容？ (我不能假设这总是< strong>如上例所示)

解决方法:

您可以使用find()代替find_all(),因为只有一个匹配项.然后使用next_sibling找到< a> tag和href来获取它的值,例如：

import bs4 
import re

thehtml = ''' 
    <p style="text-align: center;"><img src="http://example.com/smthg.png" alt="thealtttext" /></p>
    <p style="text-align: center;"><strong>My keywords : <a href="http://example.com/hello.html" target="_blank"> some text </a> </strong></p>
    <p style="text-align: center;"><strong>some other words : <a href="http://example.com/anotherlink.html" target="_blank"> some other words</a></strong></p>
    '''
soup = bs4.BeautifulSoup(thehtml)
k = soup.find(text=re.compile("My keywords")).next_sibling['href']
print(k)

收益率：

http://example.com/hello.html

更新：基于注释,要获取包含某些文本的元素,请使用parent,如：

k = soup.find(text=re.compile("My keywords")).parent.text

产量：

<strong>My keywords : <a href="http://example.com/hello.html" target="_blank"> some text </a> </strong>

内容总结

以上是互联网集市为您收集整理的python – 如何在BeautifulSoup中获取搜索的上下文？全部内容，希望文章能够帮你解决python – 如何在BeautifulSoup中获取搜索的上下文？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/786408.html

来源：【匿名】

【上一篇】python – 获取GeoPandas中几何之间的交点计数【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 如何在BeautifulSoup中获取搜索的上下文？】教程文章相关的互联网学习教程文章

Python SQLAlchemy 连接MySQL的CURD操作使用上下文管理 session【代码】

使用 contextmanager 来管理from sqlalchemy import create_engine from sqlalchemy.orm import scoped_session,sessionmakerdb_connect = "mysql+pymysql://root:password@localhost:3306/db_name?charset=utf8"create=create_engine(db_connect) SessionType=scoped_session(sessionmaker(bind=create,expire_on_commit=False))def GetSession():return SessionType()from contextlib import contextmanager@contextmanager def ...

Python上下文管理使用【代码】

1import contextlib2from queue import Queue3 4@contextlib.contextmanager5def myOpen(file):6 f = open(file)7try:8yield f #返回f到with...as..语句中的f 9finally: 10 f.close() 11 file = r"D:\text.txt"12with myOpen(file) as f: 13#在执行这块代码时，会先执行worker_state中yield前面的代码14#执行完这块代码后，会执行worker_state中finally的代码15for line in f: 16print(line) 原文：http://www.cnblogs....

python的上下文管理（contextlib）（2）【代码】

contextlib是一个Python模块，作用是提供更易用的上下文管理器。编写 __enter__ 和 __exit__ 仍然很繁琐，因此Python的标准库 contextlib 提供了更简单的写法，比如如下代码：from contextlib import contextmanagerclass Query(object):def__init__(self, name):self.name = namedef query(self):print(‘Query info about %s...‘ % self.name)@contextmanager def create_query(name):print(‘Begin‘)q = Query(name)yield qpr...

python的上下文管理器【代码】

from contextlib import contextmanagerclass Test(object):passctx = Test()@contextmanager def do_with_log(log_file_path):try:ctx.log = open(log_file_path, ‘w‘)yield ctx.logexcept Exception:passfinally:ctx.log.close()ctx.log = Nonewith do_with_log(‘test.txt‘) as log:log.write(‘123‘)print getattr(ctx, ‘log‘, None) print getattr(ctx, ‘log‘, None) 原文：https://www.cnblogs.com/Ghostant/p/13292...

Python中open()方法既能直接返回也能通过with语句当作上下文管理器使用是怎么做到的？【图】

如题。简单看了下io.py部分的源码，只看到了open的定义是直接返回对象，没有看到是如何实现上下文管理器的。Google了半天也没有结果。求知乎大神解答！回复内容：前段时间果壳 Python 开发面试被问到了这个问题实现某个对象可以用 with 来管理，只需要改写 __enter__ 和 __exit__ 这两个 magic method 即可另外你说你在 io.py 源码里没找到，大哥读代码要仔细啊io.py 里的 IO 函数都是从 _pyio.py 里 import 进来的，然后在 _pyio...

python中关于上下文管理器的详解

定义允许你在有需要的时候，精确地分配和释放资源用途上下文管理器的一个常见用例，是资源的加锁和解锁，以及关闭已打开的文件优点避免了琐碎操作：通过使用with，许多样板代码可以被消掉避免了遗忘步骤：因此不用关注嵌套代码如何退出，又能确保我们的文件会被关闭代表其中最常见的就是with语句了 python提供了with语句语法，来构建对资源的自动创建与自动释放示例小白代码：file = open(file_a, w)try:file.write(Halo)finally:...

详解有关Python上下文管理器和with块

这篇文章主要为大家详细介绍了Python上下文管理器和with块的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下上下文管理器和with块，具体内容如下上下文管理器对象存在的目的是管理 with 语句，就像迭代器的存在是为了管理 for 语句一样。with 语句的目的是简化 try/finally 模式。这种模式用于保证一段代码运行完毕后执行某项操作，即便那段代码由于异常、 return 语句或 sys.exit() 调用而中止，也会执行指定的操作。...

详细讲解python中的关键字“with”与上下文管理器

这篇文章主要介绍了关于python中关键字"with"和上下文管理器的相关资料，文中介绍的非常详细，相信对大家学习或者使用python具有一定的参考价值，需要的朋友们下面来一起看看吧。前言如果你有阅读源码的习惯，可能会看到一些优秀的代码经常出现带有 “with” 关键字的语句，它通常用在什么场景呢？今天就来说说 with 和上下文管理器。对于系统资源如文件、数据库连接、socket 而言，应用程序打开这些资源并执行完业务逻辑之后，必...

关键字"with"与上下文管理器详解

如果你有阅读源码的习惯，可能会看到一些优秀的代码经常出现带有 “with” 关键字的语句，它通常用在什么场景呢？今天就来说说 with 和上下文管理器。对于系统资源如文件、数据库连接、socket 而言，应用程序打开这些资源并执行完业务逻辑之后，必须做的一件事就是要关闭（断开）该资源。比如 Python 程序打开一个文件，往文件中写内容，写完之后，就要关闭该文件，否则会出现什么情况呢？极端情况下会出现 "Too many open files"...

Python中的with语句与上下文管理器

在Python中作为上下文管理器的对象可以使用with语句,提供上下文管理器的contextlib模块的使用则是Python编程中的高级技巧,下面我们就来详细整理一下Python中的with语句与上下文管理器学习总结:0、关于上下文管理器上下文管理器是可以在with语句中使用，拥有__enter__和__exit__方法的对象。with manager as var:do_something(var)相当于以下情况的简化：var = manager.__enter__() try:do_something(var) finally:manager.__exit__...

Python中的上下文管理器

Python中把进入代码块前调用__enter__ 方法并在离开代码块后调用__exit__方法的对象作为上下文管理器,本文中我们就来深入解析Python中的上下文管理器,来看看上下文管理器的作用及用法:1. 上下文管理器是什么？举个例子，你在写Python代码的时候经常将一系列操作放在一个语句块中：（1）当某条件为真 – 执行这个语句块（2）当某条件为真 – 循环执行这个语句块有时候我们需要在当程序在语句块中运行时保持某种状态，并且在离开语句...

编程中什么是「Context(上下文)」？

最近读Flask的文档，读到很多关于Context(上下文)的术语，如应用上下文，请求上下文等，查阅资料但没有得到理解？有没有比较好的解释？回复内容：每一段程序都有很多外部变量。只有像Add这种简单的函数才是没有外部变量的。一旦你的一段程序有了外部变量，这段程序就不完整，不能独立运行。你为了使他们运行，就要给所有的外部变量一个一个写一些值进去。这些值的集合就叫上下文。譬如说在C++的lambda表达是里面，[写在这里的就是...

Python深入学习之上下文管理器

上下文管理器(context manager)是Python2.5开始支持的一种语法，用于规定某个对象的使用范围。一旦进入或者离开该使用范围，会有特殊操作被调用 (比如为对象分配或者释放内存)。它的语法形式是with...as... 关闭文件我们会进行这样的操作：打开文件，读写，关闭文件。程序员经常会忘记关闭文件。上下文管理器可以在不需要文件的时候，自动关闭文件。下面我们看一下两段程序：代码如下: # without context manager f = open("new....

在Django的上下文中设置变量的方法

前一节的例子只是简单的返回一个值。很多时候设置一个模板变量而非返回值也很有用。那样，模板作者就只能使用你的模板标签所设置的变量。要在上下文中设置变量，在 render() 函数的context对象上使用字典赋值。这里是一个修改过的 CurrentTimeNode ，其中设定了一个模板变量 current_time ，并没有返回它：class CurrentTimeNode2(template.Node):def __init__(self, format_string):self.format_string = str(format_string)d...

Python_学习之上下文【代码】

目录示例1：查看上下文执行的顺序示例2：动态控制上下文是否抛出异常示例3：以装饰器的方式为功能函数加装上下文示例4：过滤异常，不抛出在之前我们进行过文件操作的学习时，我们为了不忘掉文件操作完毕后关闭文件file.close()，官方推荐推荐我们使用with……as 语句，这其实本质就是运用了python的上下文管理。而所谓的上下文，其实就是服务运行的状态从进入到退出的一种过程，python中我们常常通过上下文来进行资源的创建与释放...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 如何在BeautifulSoup中获取搜索的上下文？

python – 如何在BeautifulSoup中获取搜索的上下文？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 如何在BeautifulSoup中获取搜索的上下文？】教程文章相关的互联网学习教程文章

Python SQLAlchemy 连接MySQL的CURD操作使用上下文管理 session【代码】

Python上下文管理使用【代码】

python的上下文管理（contextlib）（2）【代码】

python的上下文管理器【代码】

Python中open()方法既能直接返回也能通过with语句当作上下文管理器使用是怎么做到的？【图】

python中关于上下文管理器的详解

详解有关Python上下文管理器和with块

详细讲解python中的关键字“with”与上下文管理器

关键字"with"与上下文管理器详解

Python中的with语句与上下文管理器

Python中的上下文管理器

编程中什么是「Context(上下文)」？

Python深入学习之上下文管理器

在Django的上下文中设置变量的方法

Python_学习之上下文【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程