首页 / 爬虫 / 爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？

爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1671字，纯文字阅读大概需要3分钟。

内容图文

爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？

1、导入项目所需要的的扩展库

1# -*- coding: UTF-8 -*-
2
3# 导入 urllib 用于参数数据编码
4import urllib
5# 导入 urllib2 用于执行核心爬虫
6import urllib2
7
8# 导入 UserAgent 用于生成 UA
9from fake_useragent import UserAgent

2、执行网页请求函数

 1# 执行网页请求
 2def req_url(self,full_url):
 3    headers = {
 4        # 随机生成一个 User-Agent
 5        'User-Agent': self.user_agent.random
 6    }
 7    # 构造 Request 请求对象
 8    request = urllib2.Request(headers=headers, url=full_url)
 9    # 执行请求
10    response = urllib2.urlopen(request)
11    return response.read()

3、保存网页下载的 html 源代码

1# 将爬取下来的 html 源代码保存
2def save_doc(self,html_doc, file_name):
3    print "开始保存文件:", file_name
4    with open(file_name, 'w') as f:
5        f.write(html_doc)
6    print "完成文件:", file_name, " 保存"

4、组装完整的爬虫地址、参数组装等

 1# 构造爬虫环境、并执行
 2def run_spider(self):
 3    for page in range(self.begin, self.end + 1):
 4        # 计算页码
 5        pn = (page - 1) * 50
 6        # 对中文参数进行编码
 7        name = urllib.urlencode({'kw': self.tieba_name})
 8        # 组装完整的爬虫地址
 9        full_url = self.url + name + '&pn=' + str(pn)
10        # 根据页数定义文件名称
11        file_name = str(page) + '.html'
12        # 执行爬虫网页请求
13        html_doc = self.req_url(full_url)
14        # 保存文件
15        self.save_doc(html_doc, file_name)

5、用户自定义输入参数

1# 用户输入相关数据
2url = 'http://tieba.baidu.com/f?'
3tieba_name = raw_input('请输入要爬取的贴吧名称：')
4begin = int(raw_input('请输入开始页码：'))
5end = int(raw_input('请输入结束页码：'))

实力的提升是最重要的，进入公众号回复：“贴吧爬虫源代码”，领取贴吧爬虫源代码、快去领取刷题吧~
爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？ - 文章图片

内容总结

以上是互联网集市为您收集整理的爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？全部内容，希望文章能够帮你解决爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1017646.html

来源：【匿名】

【上一篇】如何使用阿里云WAF进行反爬虫 (1)【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？】教程文章相关的互联网学习教程文章

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

nodeJs爬虫获取数据简单实现代码_node.js【图】

本文实例为大家分享了nodeJs爬虫获取数据代码，供大家参考，具体内容如下var http=require('http'); var cheerio=require('cheerio');//页面获取到的数据模块 var url='http://www.jcpeixun.com/lesson/1512/'; function filterData(html){/*所要获取到的目标数组 var courseData=[{chapterTitle:"",videosData:{videoTitle:title,videoId:id,videoPrice:price}}] */var $=cheerio.load(html);var courseData=[];var chapters=$("....

nodeJs爬虫获取数据简单实现代码【图】

本文实例为大家分享了nodeJs爬虫获取数据代码，供大家参考，具体内容如下 var http=require(http); var cheerio=require(cheerio);//页面获取到的数据模块 var url=http://www.jcpeixun.com/lesson/1512/; function filterData(html){/*所要获取到的目标数组 var courseData=[{chapterTitle:"",videosData:{videoTitle:title,videoId:id,videoPrice:price}}] */var $=cheerio.load(html);var courseData=[];var chapters=$(".list-...

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

代码如下:#coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src): try: url = urllib2.urlopen(src) content = url.read()#.decode(utf-8) return content except: print error return Nonedef pictype(content): 通过抓取网站导航栏，获得网站的图片类型返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称...

python网络爬虫初级实现代码

首先，我们来看一个Python抓取网页的库：urllib或urllib2。那么urllib与urllib2有什么区别呢？可以把urllib2当作urllib的扩增，比较明显的优势是urllib2.urlopen()可以接受Request对象作为参数，从而可以控制HTTP Request的header部。做HTTP Request时应当尽量使用urllib2库，但是urllib.urlretrieve()函数以及urllib.quote等一系列quote和unquote功能没有被加入urllib2中，因此有时也需要urllib的辅助。 urllib.open()这里传入...

Python多线程、异步＋多进程爬虫实现代码

安装Tornado 省事点可以直接用grequests库，下面用的是tornado的异步client。异步用到了tornado，根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考下最新的文档学习下。 pip install tornado 异步爬虫#!/usr/bin/env python # -*- coding:utf-8 -*-import time from datetime import timedelta from tornado import httpclient, gen, ioloop, queues import tracebackclass AsySpider(object):"""A simple class of as...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。　　1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。代码如下: def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。　　2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正...