首页 / 爬虫 / Python网络爬虫实例讲解

Python网络爬虫实例讲解

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python网络爬虫实例讲解，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2482字，纯文字阅读大概需要4分钟。

内容图文

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫：自动抓取互联网数据的程序。

2、爬虫的主要框架

Python网络爬虫实例讲解 - 文章图片

爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待爬取的URL链接，爬虫调度器调用网页下载器下载相应网页，然后调用网页解析器解析该网页，并将该网页中新的URL添加到URL管理器中，将有价值的数据输出。

3、爬虫的时序图

Python网络爬虫实例讲解 - 文章图片

4、URL管理器

URL管理器管理待抓取的URL集合和已抓取的URL集合，防止重复抓取与循环抓取。URL管理器的主要职能如下图所示：

Python网络爬虫实例讲解 - 文章图片

URL管理器在实现方式上，Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序，一般在内存中实现，Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序，一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库，这是python自带的模块。对于2.x版本中的urllib2库，在python3.x中集成到urllib中，在其request等子模块中。urllib中的urlopen函数用于打开url，并获取url数据。urlopen函数的参数可以是url链接，也可以使request对象，对于简单的网页，直接使用url字符串做参数就已足够，但对于复杂的网页，设有防爬虫机制的网页，再使用urlopen函数时，需要添加http header。对于带有登录机制的网页，需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取，可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配，对于特点比较鲜明的目标数据具有较好的作用，但通用性不高。BeautifulSoup是第三方模块，用于结构化解析url内容。将下载到的网页内容解析为DOM树，下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

Python网络爬虫实例讲解 - 文章图片

关于BeautifulSoup的具体使用，在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条，并将这些词条保存在新建的excel中。上代码：

from bs4 import BeautifulSoup 
import re 
import xlrd 
import xlwt 
from urllib.request import urlopen 
 
 
 
excelFile=xlwt.Workbook() 
sheet=excelFile.add_sheet('league of legend') 
## 百度百科：英雄联盟## 
html=urlopen("http://baike.baidu.com/subview/3049782/11262116.htm") 
bsObj=BeautifulSoup(html.read(),"html.parser") 
#print(bsObj.prettify()) 
 
row=0 
 
for node in bsObj.find("div",{"class":"main-content"}).findAll("div",{"class":"para"}): 
  links=node.findAll("a",href=re.compile("^(/view/)[0-9]+\.htm$")) 
  for link in links: 
    if 'href' in link.attrs: 
      print(link.attrs['href'],link.get_text()) 
      sheet.write(row,0,link.attrs['href']) 
      sheet.write(row,1,link.get_text()) 
      row=row+1 
 
 
excelFile.save('E:\Project\Python\lol.xls')

输出的部分截图如下：

Python网络爬虫实例讲解 - 文章图片

excel部分的截图如下：

Python网络爬虫实例讲解 - 文章图片

以上就是本文的全部内容，希望对大家学习Python网络爬虫有所帮助。

内容总结

以上是互联网集市为您收集整理的Python网络爬虫实例讲解全部内容，希望文章能够帮你解决Python网络爬虫实例讲解所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/428455.html

来源：【匿名】

【上一篇】最近使用python写了爬虫，感觉体验非常不好，请教各位？【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python网络爬虫实例讲解】教程文章相关的互联网学习教程文章

Python 爬虫实例【代码】【图】

下面是我写的一个简单爬虫实例1.定义函数读取html网页的源代码2.从源代码通过正则表达式挑选出自己需要获取的内容3.序列中的htm依次写到d盘#!/usr/bin/python import re import urllib.request#定义函数读取html网页的源代码 def getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html#从源代码通过正则表达式挑选出自己需要获取的内容 def getImg(html):reg = r‘href="(.*?\.htm)"‘imgre = re.compile...

python爬虫实例——爬取歌单【代码】【图】

学习自http://www.hzbook.com/index.php/Book/search.html书名：从零开始学python网络爬虫爬取酷狗歌单，保存入csv文件直接上源代码：（含注释）import requests #用于请求网页获取网页数据from bs4 import BeautifulSoup #解析网页数据import time #time库中的sleep()方法可以让程序暂停import csv‘‘‘ 爬虫测试酷狗top500数据写入csv文件 ‘‘‘ fp = open(‘D://kugou.c...

python爬虫实例（urllib&BeautifulSoup）【代码】

python 2.7.6urllib:发送报文并得到responseBeautifulSoup：解析报文的body（html）#encoding=UTF-8 from bs4 import BeautifulSoup from urllib import urlopen import urlliblist_no_results=[]#没查到的银行卡的list list_yes_results=[]#已查到的银行卡的list#解析报文，以字典存储 def parseData(htmls,code): dic={} s=BeautifulSoup(htmls) if code==‘00‘: list=s.find_all(‘td‘,‘STYLE2‘,align=...

使用selenium做简单爬虫的实例

selenium 是一个Web自动化测试的软件包，可以用于自动测试Web应用，也可以用于当作简单的爬虫制作工具，这是一个简单的demo，用于爬取Google APP Store中的一个类别: ?1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171...

Go语言实现的web爬虫实例

本文实例讲述了Go语言实现的web爬虫方法。分享给大家供大家参考。具体分析如下：这里使用 Go 的并发特性来并行执行 web 爬虫。修改 Crawl 函数来并行的抓取 URLs，并且保证不重复。复制代码代码如下:package main import ( "fmt" ) type Fetcher interface { // Fetch 返回 URL 的 body 内容，并且将在这个页面上找到的 URL 放到一个 slice 中。 Fetch(url string) (body string, urls []string, err error) } /...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

简单爬虫实例【代码】

代码工具：jupyter抓包工具：fiddle1：搜狗页面内容爬取1import requests 23 url=‘https://www.sogou.com/‘4 response=requests.get( 5 url=url 6) 7 text=response.text 8 text搜狗内容2:豆瓣电影分类爬取 1import requests2 url=‘https://movie.douban.com/j/new_search_subjects‘ 3 param={4‘sort‘:‘U‘,5‘range‘: ‘0,10‘,6‘tags‘: ‘‘,7‘start‘: ‘0‘,8‘genres‘: ‘爱情‘ 9} 10 headers={ 11‘User-Ag...

爬虫5 cookie保存和调用实例【代码】

简述：使用MozillaCookieJar来保存和加载cookie，具体如下："""cookie实例，自动保存，调用cookie　　使用‘快代理’网站测试：登录页 + 工单页1. MozillaCookieJar库，用来提取并保存cookie信息 """from urllib.request import Request, build_opener, HTTPCookieProcessor from fake_useragent import UserAgent from urllib.parse import urlencode from http.cookiejar import MozillaCookieJar# 登陆并保存cookiedef login_...

python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据【图】

通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个一个单独的散知识点，需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据目标站和目标数据目标地址：http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp目标数据：目标地址页面的中间的案开庭公告数据对数据页面分析从打开页面后可以看到默认的数据是...

网络爬虫的提取爬虫实例【代码】【图】

0x00 中国最好大学排名的爬取我们通过上海交通大学设计研发的最好大学网来进行数据的抓取这是本次爬取的url：软科中国最好大学排名功能描述：　　输入目标url　　输出大学排名信息（排名、学校、总分）　　技术路线：requests-bs4　　定向爬取：只对该url进行爬取分析：　　查看网页源代码，为了快速定位，可以直接在源代码页面搜索“清华大学”，就能迅速定位我们想要的代码段，确定爬取计划可行。接下来，我们查看根目录下的r...

phpIIS日志分析搜索引擎爬虫记录程序_php实例

由于最近比较忙，代码写得不怎么规范，界面也没有怎么美化，大家先用着吧，以后增加新功能会第一时间发布给大家！使用注意：　　修改iis.php文件中iis日志的绝对路径　　例如：$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。　　( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看! 　　直接查看法：http://站点域名/iis.php 　　本地查看法：把日志下载到本地 http://www.gxlcms....

Python爬虫抓取代理IP并检验可用性的实例

这篇文章主要介绍了关于Python爬虫抓取代理IP并检验可用性的实例，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下经常写爬虫，难免会遇到ip被目标网站屏蔽的情况，银次一个ip肯定不够用，作为节约的程序猿，能不花钱就不花钱，那就自己去找吧，这次就写了下抓取西刺代理上的ip，但是这个网站也反爬！！！至于如何应对，我觉得可以通过增加延时试试，可能是我抓取的太频繁了，所以被封IP了。但是，还是可以去IP巴士...

php与python实现的线程池多线程爬虫功能实例详解

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

PHP学习CURL之爬虫实例

很多时候我们需要批量抓取一些网站的资源，这个时候就需要用到爬虫。爬虫的基础就是通过CURL来模拟HTTP请求然后解析数据，本文就通过编写一个简单的网络爬虫来带领大家学习PHP的CURL。先介绍一些常用的函数。curl_init 初始化一个curl对话 curl_setopt 设置curl参数，即传输选项 curl_exec 执行请求 curl_close 关闭一个curl对话主要是上面四个curl_errno 返回最后一次错误码,php已经定义了诸多错误枚举编码 curl_errror 返回一个保...

一个PHP实现的轻量级简单爬虫_php实例

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬虫的原理其实很简单，就是分析下载的页面，找出其中的连接，然后再下载这些链接，再分析再下载，周而复始。在数据存储方面，数据库是首选，便于检索，而开发语言，只要支持正则表达式就可以了，数据库我选择了mysql，所...

首页 / 爬虫 / Python网络爬虫实例讲解

Python网络爬虫实例讲解

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python网络爬虫实例讲解】教程文章相关的互联网学习教程文章

Python 爬虫实例【代码】【图】

python爬虫实例——爬取歌单【代码】【图】

python爬虫实例（urllib&BeautifulSoup）【代码】

使用selenium做简单爬虫的实例

Go语言实现的web爬虫实例

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

简单爬虫实例【代码】

爬虫5 cookie保存和调用实例【代码】

python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据【图】

网络爬虫的提取爬虫实例【代码】【图】

phpIIS日志分析搜索引擎爬虫记录程序_php实例

Python爬虫抓取代理IP并检验可用性的实例

php与python实现的线程池多线程爬虫功能实例详解

PHP学习CURL之爬虫实例

一个PHP实现的轻量级简单爬虫_php实例

PYTHON - 相关标签

爬虫 - 相关标签

实例 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程