首页 / PYTHON / python-Scrapy xpath获取以<开头的元素的文本

python-Scrapy xpath获取以<开头的元素的文本

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-Scrapy xpath获取以<开头的元素的文本，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1640字，纯文字阅读大概需要3分钟。

内容图文

我正在尝试从此html代码段中获取文本“< 1小时”.

<div class="details_wrapper">
<div class="detail">
    <b>Recommended length of visit:</b>
    <1 hour
</div>
<div class="detail">
    <b>Fee:</b>
    No
</div>
</div>

这是我正在使用的xpath表达式：

visit_length = response.xpath(
    "//div[@class='details_wrapper']/"
    "div[@class='detail']/b[contains(text(), "
    "'Recommended length of visit:')]/parent::div/text()"
).extract()

但是它无法获取文本.我认为这是由于“<”引起的在我需要的文本中,它被视为html标签.我该如何刮擦文本“< 1小时”？

解决方法:

考虑到Scrapy在后台使用了lxml,可能值得检查一下lxml如何处理这种HTML,其中包含XML特殊字符<.在文本节点之一中：

>>> from lxml import html
>>> raw = '''<div class="details_wrapper">
... <div class="detail">
...     <b>Recommended length of visit:</b>
...     <1 hour
... </div>
... <div class="detail">
...     <b>Fee:</b>
...     No
... </div>
... </div>'''
... 
>>> root = html.fromstring(raw)
>>> print html.tostring(root)
<div class="details_wrapper">
<div class="detail">
    <b>Recommended length of visit:</b>

<div class="detail">
    <b>Fee:</b>
    No
</div>
</div></div>

请注意,在上面的演示中,您怀疑文本节点“ <1小时”完全脱离了根元素源.作为一种解决方法,请考虑使用BeautifulSoup,因为在处理这种HTML情况下它更合理(您可以传递response.body_as_unicode()从Scrapy响应中创建汤)：

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(raw, "html.parser")
>>> print soup.prettify()
<div class="details_wrapper">
 <div class="detail">
  <b>
   Recommended length of visit:
  </b>
  &lt;1 hour
 </div>
 <div class="detail">
  <b>
   Fee:
  </b>
  No
 </div>
</div>

可以使用BS查找目标文本节点,如下所示：

>>> soup.find('b', text='Recommended length of visit:').next_sibling
u'\n    <1 hour\n'

内容总结

以上是互联网集市为您收集整理的python-Scrapy xpath获取以<开头的元素的文本全部内容，希望文章能够帮你解决python-Scrapy xpath获取以<开头的元素的文本所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/664190.html

来源：【匿名】

【上一篇】python 2.7文件困难【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-Scrapy xpath获取以<开头的元素的文本】教程文章相关的互联网学习教程文章

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫：scrapy startproject weatherscrapy genspider HQUSpider quanzhou.tianqi.com项目文件结构如图： 3.修改Items.py： 4.修改Spider文件HQUSpider.py：（1）先使用命令：scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器：（2）试验选择器：打开chrome浏览器，查看网页源代码：（3）执行命令查看response结果：（4）编写HQUSpider.py文件：...

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

第一步：创建项目scrapy stratproject [name]如 scrapy startproject choushibaike第二步：进入到项目的文件夹目录创建APPscrapy gensider baike lovehhy.net第三步：配置baike.py文件# -*- coding: utf-8 -*-import scrapyfrom ..items import ChoushibaikeItemclass BaikeSpider(scrapy.Spider): name = ‘baike‘ allowed_domains = [‘lovehhy.net‘] start_urls = [‘http://www.lovehhy.net/joke/Detail/QSBK‘] ...

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

windows下安装scrapy依次执行下列操作：pip install wheelpip install lxmlpip install PyOpenssl安装Microsoft visual c++ build toolspip install twisted　　当此处提示错误时，安装Microsoft Visual C++ Compiler for Python 2.7　　下载地址：https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266pip install pywin32pip install scrapy检测scrapy是否安装成功：在cmd中执行scrapy 原文：https://www.cnblog...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

python-scrapy的编码问题

在学习scrapy中，遇到编码问题还是很头痛的问题的。由于对于语言的对不熟悉，加上不会思考的去解决问题。这样盲目的实践似乎就是在浪费时间。用心思考一下是非常重要的一个过程，在没有办法前进的时候，先学会停下来，不要盲目的去走。静下心是比较理想的解决问题的方式。不要着急，既然是学习。那就要慢慢的学习，不能很急切的盲目茫然的去乱闯。会思考，善于发现问题，然后一步一步的慢慢的解决。不能太过着急。原文：http://www...

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

Scrapy,Python安装，使用！1、下载安装Python2.7.6，因为Scrapy还不支持3.x版本。Latest Python 2 Release - Python 2.7.6，安装时选择当前用户。2、到http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/下载安装pywin32-219.win-amd64-py2.7.exe3、将C:\python27\Scripts;C:\python27;添加到环境变量里。4、http://slproweb.com/products/Win32OpenSSL.html 到这里下载Visual C++ 2008 Redistributables和Win32...

python 3.6.1 安装scrapy踩坑之旅【图】

系统环境：win10 64位系统安装python基础环境配置不做过多的介绍 window环境安装scrapy需要依赖pywin32，下载对应python版本的exe文件执行安装，下载的pywin32版本不对安装会失败下载依赖地址：https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/ 下载依赖安装完成后试下pip install scrapy，很显然失败了发现网友的解决方案：地址：https://blog.csdn.net/aviciie/article/details/80768328安装scrapy还需要的...

win7环境scrapy输出错误日志报错解决方案

win7下调试scrapy代码时，出现代码报错，但是未输出到log日志，而是在cmd中报如下错误：Traceback (most recent call last): File "d:\python27\lib\logging\__init__.py", line 884, in emit stream.write(fs % msg.encode("UTF-8"))UnicodeDecodeError: gbk codec cant decode bytes in position 1274-1275: illegal multibyte sequenceLogged from file scraper.py, line 158各种尝试均告失败，后来在论坛中发现有人说这个b...

python爬虫-scrapy日志【代码】【图】

1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE logging.WARINING logging.INFO logging.DEBUG 2、如何在python中使用日志呢？ import logging （1）日志对应的格式字符串（2）创建一个logger logger = logging.getLogger("%s_log" %__name__) logger.setLevel(logging.INFO) # 设定日志等级（3）创建一个handler，用于写入日志文件...

首页 / PYTHON / python-Scrapy xpath获取以<开头的元素的文本

python-Scrapy xpath获取以<开头的元素的文本

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-Scrapy xpath获取以<开头的元素的文本】教程文章相关的互联网学习教程文章

Python打印scrapy蜘蛛抓取树结构的方法【代码】

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之scrapy框架【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

python-scrapy的编码问题

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

python 3.6.1 安装scrapy踩坑之旅【图】

win7环境scrapy输出错误日志报错解决方案

python爬虫-scrapy日志【代码】【图】

PYTHON - 相关标签

元素 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程