首页 / 爬虫 / 黑板客爬虫闯关 代码
黑板客爬虫闯关 代码
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了黑板客爬虫闯关 代码,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1349字,纯文字阅读大概需要2分钟。
内容图文
![黑板客爬虫闯关 代码](/upload/InfoBanner/zyjiaocheng/1270/03adc220daed4168a13948fc28be33c4.jpg)
简介:
原网址:黑板客爬虫闯关
提供给网友的一个学习爬虫的网站,关卡设计由易到难,到后面逐渐涉及模拟登陆,多线程等,让你掌握网络爬虫的基本技术。
第一关:
简单的在网址后面输入数字就可以,只不过你需要N++++个数字才能到达第二关的入口,每次跳转页面里都有下一个页面的跳转数字。所以这里需要用爬虫爬取出每个页面的跳转数字,直到没有跳转数字为止就是第二关的入口了。
代码:
1
#
coding=gbk
2
import
re
3
import
urllib2
4
5 rooturl = ‘http://www.heibanke.com/lesson/crawler_ex00/‘ 6 url = rooturl
7 8while True:
9 request = urllib2.Request(url)
10 response = urllib2.urlopen(request,timeout=30)
1112 html = response.read().decode(‘utf8‘)
1314 items = re.findall(r‘<h3>.*?(\d+).*?</h3>‘,html)
1516if len(items)==0:
17break18else:
19 num = items[0]
20 url = rooturl + num
2122print‘go:‘23print url
2425print‘answer:%s‘%url
第二关:
使用爬虫模拟post请求穷举密码即可。
代码:
1
#
coding=gbk
2
import
re
3
import
urllib
4
import
urllib2
5
6 rooturl = ‘http://www.heibanke.com/lesson/crawler_ex01/‘ 7 url = rooturl
8 9for pwd in range(0,31):
10 data = {}
11 data[‘username‘] = ‘yym‘12 data[‘password‘] = pwd
13print‘尝试%d‘%pwd
1415 post_data = urllib.urlencode(data)
16#print post_data1718 request = urllib2.Request(url)
19 response = urllib2.urlopen(request,post_data,timeout=30)
2021 html = response.read().decode(‘utf8‘)
22if html.find(‘密码错误‘.decode(‘gbk‘)) == -1:
23print‘密码正确‘24print‘answer:%d‘%pwd
25break26else:
27print‘密码错误‘28if pwd==30:
29print‘没找到密码‘
Freecode# : www.cnblogs.com/yym2013
原文:http://www.cnblogs.com/yym2013/p/5976401.html
内容总结
以上是互联网集市为您收集整理的黑板客爬虫闯关 代码全部内容,希望文章能够帮你解决黑板客爬虫闯关 代码所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。