首页 / HTML / python-Scrapy.从div提取html而不包装父标签

python-Scrapy.从div提取html而不包装父标签

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-Scrapy.从div提取html而不包装父标签，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含583字，纯文字阅读大概需要1分钟。

内容图文

我使用scrapy来爬行网站.

我想提取某些div的内容.

<div class="short-description">
{some mess with text, <br>, other html tags, etc}
</div>

loader.add_xpath('short_description', "//div[@class='short-description']/div")

通过该代码,我得到了我需要的东西,但结果包括包装html(< div class =“ short-description”> …< / div>)

如何摆脱该父html标签？

注意.诸如text(),node()之类的选择器无法帮助我,因为我的div包含< br&gt ;、< p&gt ;、其他div等,空白,并且我需要保留它们.

解决方法:

hxs = HtmlXPathSelector(response)
for text in hxs.select("//div[@class='short-description']/text()").extract(): 
    print text

内容总结

以上是互联网集市为您收集整理的python-Scrapy.从div提取html而不包装父标签全部内容，希望文章能够帮你解决python-Scrapy.从div提取html而不包装父标签所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/676176.html

来源：【匿名】

【上一篇】php-如何在html中的textarea中对齐文本【下一篇】PHP 和 HTML

更多 ►

【python-Scrapy.从div提取html而不包装父标签】教程文章相关的互联网学习教程文章

初识scrapy，美空网图片爬取实战_html/css_WEB-ITnose【图】

这俩天研究了下scrapy爬虫框架，遂准备写个爬虫练练手。平时做的较多的事情是浏览图片，对，没错，就是那种艺术照，我骄傲的认为，多看美照一定能提高审美，并且成为一个优雅的程序员。O(∩_∩)O~ 开个玩笑，那么废话不多说，切入正题吧，写一个图片爬虫。设计思路：爬取目标为美空网模特照片，利用CrawlSpider提取每张照片的url地址，并将提取的图片url写入一个静态html文本作为存储，打开即可查看图片。我的环境是...

python-Scrapy.从div提取html而不包装父标签【代码】

我使用scrapy来爬行网站. 我想提取某些div的内容.<div class="short-description"> {some mess with text, <br>, other html tags, etc} </div>loader.add_xpath('short_description', "//div[@class='short-description']/div")通过该代码,我得到了我需要的东西,但结果包括包装html(< div class =“ short-description”> …< / div>) 如何摆脱该父html标签？注意.诸如text(),node()之类的选择器无法帮助我,因为我的div包含< br&...

python-HTML元素的Scrapy CSS选择器,其类包含非字母数字字符【代码】

我正在使用Scrapy爬网.我试图在响应中选择一个元素. 我的响应对象包含如下所示的HTML：<html><head><title>Title goes here</title</head><body><select class="Gy(t)"></select></body> </html>我的代码：def parse(self, response):# ....print (response.selector.css('select.Gy(t)'))我在运行代码时抛出了以下异...

javascript – 使用Scrapy从HTML中获取标记数据【代码】

我一直在尝试使用Scrapy(xpath)从Kbb的HTML中提取脚本标记中的数据.但我的主要问题是识别正确的div和脚本标签.我是使用xpath的新手,非常感谢任何帮助！ HTML(http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mileage=10000&condition=fair&pricetype=retail)：<script type="text/javascript" src="http://s1.kbb.com/combine/IncentivesPilotJs/949332058"></script><input type="hidden...

首页 / HTML / python-Scrapy.从div提取html而不包装父标签

python-Scrapy.从div提取html而不包装父标签

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-Scrapy.从div提取html而不包装父标签】教程文章相关的互联网学习教程文章

初识scrapy，美空网图片爬取实战_html/css_WEB-ITnose【图】

python-Scrapy.从div提取html而不包装父标签【代码】

python-HTML元素的Scrapy CSS选择器,其类包含非字母数字字符【代码】

javascript – 使用Scrapy从HTML中获取标记数据【代码】

PYTHON - 相关标签

HTML - 相关标签

提取 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程