python妹子图简单爬虫实例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python妹子图简单爬虫实例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1860字，纯文字阅读大概需要3分钟。

内容图文

本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下：

#!/usr/bin/env python
#coding: utf-8
import urllib
import urllib2
import os
import re
import sys
#显示下载进度
def schedule(a,b,c):
  '''''
  a:已经下载的数据块
  b:数据块的大小
  c:远程文件的大小
  '''
  per = 100.0 * a * b / c
  if per > 100 :
    per = 100
  print '%.2f%%' % per
#获取html源码
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
#下载图片
def downloadImg(html, num, foldername):
  picpath = '%s' % (foldername) #下载到的本地目录
  if not os.path.exists(picpath): #路径不存在时创建一个
    os.makedirs(picpath)
  target = picpath+'/%s.jpg' % num
  myItems = re.findall('',html,re.S)
  print 'Downloading image to location: ' + target
  urllib.urlretrieve(myItems[0], target, schedule)
#正则匹配分页
def findPage(html):
  myItems = re.findall('(\d*)', html, re.S)
  return myItems.pop()
#正则匹配列表
def findList(html):
  myItems = re.findall('.*?', html, re.S)
  return myItems
#总下载
def totalDownload(modelUrl):
  listHtml5 = getHtml(modelUrl)
  listContent = findList(listHtml)
  for list in listContent:
    html = getHtml('http://www.mzitu.com/' + str(list[0]))
    totalNum = findPage(html)
    for num in range(1, int(totalNum)+1):
      if num == 1:
        url = 'http://www.mzitu.com/' + str(list[0])
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
      else:
        url = 'http://www.mzitu.com/' + str(list[0]) + '/'+str(num)
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
if __name__ == '__main__':
  listHtml = getHtml('http://www.mzitu.com/model')
  #这是其中一个模块的url，可以添加不同的模块url从而达到整站爬取。
  for model in range(1, int(findPage(listHtml))+1):
    if model == 1:
      modelUrl = 'http://www.mzitu.com/model'
      totalDownload(modelUrl)
    else:
      modelUrl = 'http://www.mzitu.com/model/page/' + str(model)
      totalDownload(modelUrl)
  print "Download has finished."

希望本文所述对大家的Python程序设计有所帮助。

内容总结

以上是互联网集市为您收集整理的python妹子图简单爬虫实例全部内容，希望文章能够帮你解决python妹子图简单爬虫实例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/434342.html

来源：【匿名】

【上一篇】python实现爬虫下载美女图片【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python妹子图简单爬虫实例】教程文章相关的互联网学习教程文章

selenium 是一个Web自动化测试的软件包，可以用于自动测试Web应用，也可以用于当作简单的爬虫制作工具，这是一个简单的demo，用于爬取Google APP Store中的一个类别: ?1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171...

Go语言实现的web爬虫实例

本文实例讲述了Go语言实现的web爬虫方法。分享给大家供大家参考。具体分析如下：这里使用 Go 的并发特性来并行执行 web 爬虫。修改 Crawl 函数来并行的抓取 URLs，并且保证不重复。复制代码代码如下:package main import ( "fmt" ) type Fetcher interface { // Fetch 返回 URL 的 body 内容，并且将在这个页面上找到的 URL 放到一个 slice 中。 Fetch(url string) (body string, urls []string, err error) } /...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

简单爬虫实例【代码】

代码工具：jupyter抓包工具：fiddle1：搜狗页面内容爬取1import requests 23 url=‘https://www.sogou.com/‘4 response=requests.get( 5 url=url 6) 7 text=response.text 8 text搜狗内容2:豆瓣电影分类爬取 1import requests2 url=‘https://movie.douban.com/j/new_search_subjects‘ 3 param={4‘sort‘:‘U‘,5‘range‘: ‘0,10‘,6‘tags‘: ‘‘,7‘start‘: ‘0‘,8‘genres‘: ‘爱情‘ 9} 10 headers={ 11‘User-Ag...

爬虫5 cookie保存和调用实例【代码】

简述：使用MozillaCookieJar来保存和加载cookie，具体如下："""cookie实例，自动保存，调用cookie　　使用‘快代理’网站测试：登录页 + 工单页1. MozillaCookieJar库，用来提取并保存cookie信息 """from urllib.request import Request, build_opener, HTTPCookieProcessor from fake_useragent import UserAgent from urllib.parse import urlencode from http.cookiejar import MozillaCookieJar# 登陆并保存cookiedef login_...

python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据【图】

通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个一个单独的散知识点，需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据目标站和目标数据目标地址：http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp目标数据：目标地址页面的中间的案开庭公告数据对数据页面分析从打开页面后可以看到默认的数据是...

网络爬虫的提取爬虫实例【代码】【图】

0x00 中国最好大学排名的爬取我们通过上海交通大学设计研发的最好大学网来进行数据的抓取这是本次爬取的url：软科中国最好大学排名功能描述：　　输入目标url　　输出大学排名信息（排名、学校、总分）　　技术路线：requests-bs4　　定向爬取：只对该url进行爬取分析：　　查看网页源代码，为了快速定位，可以直接在源代码页面搜索“清华大学”，就能迅速定位我们想要的代码段，确定爬取计划可行。接下来，我们查看根目录下的r...

phpIIS日志分析搜索引擎爬虫记录程序_php实例

由于最近比较忙，代码写得不怎么规范，界面也没有怎么美化，大家先用着吧，以后增加新功能会第一时间发布给大家！使用注意：　　修改iis.php文件中iis日志的绝对路径　　例如：$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。　　( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看! 　　直接查看法：http://站点域名/iis.php 　　本地查看法：把日志下载到本地 http://www.gxlcms....

Python爬虫抓取代理IP并检验可用性的实例

这篇文章主要介绍了关于Python爬虫抓取代理IP并检验可用性的实例，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下经常写爬虫，难免会遇到ip被目标网站屏蔽的情况，银次一个ip肯定不够用，作为节约的程序猿，能不花钱就不花钱，那就自己去找吧，这次就写了下抓取西刺代理上的ip，但是这个网站也反爬！！！至于如何应对，我觉得可以通过增加延时试试，可能是我抓取的太频繁了，所以被封IP了。但是，还是可以去IP巴士...

php与python实现的线程池多线程爬虫功能实例详解

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

PHP学习CURL之爬虫实例

很多时候我们需要批量抓取一些网站的资源，这个时候就需要用到爬虫。爬虫的基础就是通过CURL来模拟HTTP请求然后解析数据，本文就通过编写一个简单的网络爬虫来带领大家学习PHP的CURL。先介绍一些常用的函数。curl_init 初始化一个curl对话 curl_setopt 设置curl参数，即传输选项 curl_exec 执行请求 curl_close 关闭一个curl对话主要是上面四个curl_errno 返回最后一次错误码,php已经定义了诸多错误枚举编码 curl_errror 返回一个保...

一个PHP实现的轻量级简单爬虫_php实例

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬虫的原理其实很简单，就是分析下载的页面，找出其中的连接，然后再下载这些链接，再分析再下载，周而复始。在数据存储方面，数据库是首选，便于检索，而开发语言，只要支持正则表达式就可以了，数据库我选择了mysql，所...

PHP代码实现爬虫记录——超管用_php实例【图】

实现爬虫记录本文从创建crawler 数据库，robot.php记录来访的爬虫从而将信息插入数据库crawler,然后从数据库中就可以获得所有的爬虫信息。实现代码具体如下：数据库设计create table crawler ( crawler_ID bigint() unsigned not null auto_increment primary key,crawler_category varchar() not null,crawler_date datetime not null default -- ::,crawler_url varchar() not null,crawler_IP varchar() not null )default ...

PHP爬虫之百万级别知乎用户数据爬取与分析_php实例【图】

这次抓取了110万的用户数据，数据分析结果如下：开发前的准备安装Linux系统（Ubuntu14.04），在VMWare虚拟机下安装一个Ubuntu；安装PHP5.6或以上版本；安装MySQL5.5或以上版本；安装curl、pcntl扩展。使用PHP的curl扩展抓取页面数据 PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击...

php实现简单爬虫的开发_php实例【图】

有时候因为工作、自身的需求，我们都会去浏览不同网站去获取我们需要的数据，于是爬虫应运而生，下面是我在开发一个简单爬虫的经过与遇到的问题。开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。按照个人习惯，我首先要写一个界面，理清下思路。1、去不同网站。那么我们需要一个url输入框。2、找特定关键字的文章。那么我们需要一个文章标题输...

首页 / 爬虫 / python妹子图简单爬虫实例

python妹子图简单爬虫实例

内容导读

内容图文

.*?

内容总结

内容备注

内容手机端

【python妹子图简单爬虫实例】教程文章相关的互联网学习教程文章

使用selenium做简单爬虫的实例

Go语言实现的web爬虫实例

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

简单爬虫实例【代码】

爬虫5 cookie保存和调用实例【代码】

python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据【图】

网络爬虫的提取爬虫实例【代码】【图】

phpIIS日志分析搜索引擎爬虫记录程序_php实例

Python爬虫抓取代理IP并检验可用性的实例

php与python实现的线程池多线程爬虫功能实例详解

PHP学习CURL之爬虫实例

一个PHP实现的轻量级简单爬虫_php实例

PHP代码实现爬虫记录——超管用_php实例【图】

PHP爬虫之百万级别知乎用户数据爬取与分析_php实例【图】

php实现简单爬虫的开发_php实例【图】

PYTHON - 相关标签

爬虫 - 相关标签

实例 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程