python 第二周(第十天) 我的python成长记 一个月搞定python数据挖掘!(18) -mongodb
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python 第二周(第十天) 我的python成长记 一个月搞定python数据挖掘!(18) -mongodb,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2078字,纯文字阅读大概需要3分钟。
内容图文
1. 首先导入工具
from scrapy.selector import Selector
2. selectors的使用
实例:response.selector.xpath(‘//span/text()‘).extract()
(1)选择title标签中text的文本内容
response.selector.xpath(‘//title/text()‘)
提供两个更简单的方法
response.xpath(‘//title/text()‘)
response.css(‘title::text‘)
例子:
response.css(‘img‘).xpath(‘@src‘).extract()
response.xpath(‘//div[@id="images"]/a/text()‘).extract_first()
response.xpath(‘//div[@id="not-exists"]/text()‘).extract_first(default=‘not-found‘)
(2)使用正则匹配的
response.xpath(‘//a[contains(@href, "image")]/text()‘).re(r‘Name:\s*(.*)‘)
response.xpath(‘//a[contains(@href, "image")]/text()‘).re_first(r‘Name:\s*(.*)‘)
(3)Working with relative XPaths
divs = response.xpath(‘//div‘)
for p in divs.xpath(‘.//p‘):
print p.extract()
for p in divs.xpath(‘p‘):
print p.extract()
(4)
(5)
官方实例:
>>> links = response.xpath(‘//a[contains(@href, "image")]‘)
>>> links.extract()
[u‘<a href="image1.html">Name: My image 1 <br><img src="image1_thumb.jpg"></a>‘,
u‘<a href="image2.html">Name: My image 2 <br><img src="image2_thumb.jpg"></a>‘,
u‘<a href="image3.html">Name: My image 3 <br><img src="image3_thumb.jpg"></a>‘,
u‘<a href="image4.html">Name: My image 4 <br><img src="image4_thumb.jpg"></a>‘,
u‘<a href="image5.html">Name: My image 5 <br><img src="image5_thumb.jpg"></a>‘]
>>> for index, link in enumerate(links):
... args = (index, link.xpath(‘@href‘).extract(), link.xpath(‘img/@src‘).extract())
... print ‘Link number %d points to url %s and image %s‘ % args
Link number 0 points to url [u‘image1.html‘] and image [u‘image1_thumb.jpg‘]
Link number 1 points to url [u‘image2.html‘] and image [u‘image2_thumb.jpg‘]
Link number 2 points to url [u‘image3.html‘] and image [u‘image3_thumb.jpg‘]
Link number 3 points to url [u‘image4.html‘] and image [u‘image4_thumb.jpg‘]
Link number 4 points to url [u‘image5.html‘] and image [u‘image5_thumb.jpg‘]
原文:http://www.cnblogs.com/yugengde/p/7277406.html
内容总结
以上是互联网集市为您收集整理的python 第二周(第十天) 我的python成长记 一个月搞定python数据挖掘!(18) -mongodb全部内容,希望文章能够帮你解决python 第二周(第十天) 我的python成长记 一个月搞定python数据挖掘!(18) -mongodb所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。