#!/usr/bin/env python
#coding:utf-8import urllib
import redef GetHtml(url):"""获取HTML页面所有元素."""page = urllib.urlopen(url)html = page.read()return htmldef GetImg(html):""" 获取HTML页面所有.jpg图片."""reg = r‘src="(.+?\.jpg)"‘ imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0for imgurl in imglist:urllib.urlretrieve(imgurl, ‘%s.jpg‘ %x, cbx)x += 1print"img: %s is done!" %xdef...
# -*- coding:utf-8 -*-
#https://blog.csdn.net/qq_32166627/article/details/60882964import requests
import os
import pinyindef getManyPages(keyword,pages):params=[]for i in range(30,30*pages+30,30):params.append({‘tn‘: ‘resultjson_com‘,‘ipn‘: ‘rj‘,‘ct‘: 201326592,‘is‘: ‘‘,‘fp‘: ‘result‘,‘queryWord‘: keyword,‘cl‘: 2,‘lm‘: -1,‘ie‘: ‘utf-8‘,‘oe‘: ‘utf-8‘,‘adpicid‘: ‘‘...
学了一下python正则表达式,写一个百度图片爬虫玩玩。当技术遇上心术不正的人,就成我这样的2B青年了。python3.6开发,在Windows下需要安装vc2015动态库。下载地址:http://www.cr173.com/soft/146014.html 1#/usr/bin/env python 2#Guoyabin 3#-*- coding:utf-8 -*- 4import re,os5import requests6 7 keyword=input(‘请输入搜索关键词:‘)8 os.chdir(‘C:\\Users\\Administrator\\Desktop\\‘)9if os.path.exists(keyword) ==Fal...
继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图。# -*- coding: utf-8 -*- #---------------------------------------
# 程序:点点美女图片爬虫
# 版本:0.2
# 作者:zippera
# 日期:2013-07-26
# 语言:Python 2.7
# 说明:能设置下载的页数
#--------------------------------------- import urllib2
import urllib
import repat = re.compile(\n.*?imgsrc="(ht.*?)\".*?)
nexturl1 = "h...
学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。
用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:代码如下:
# -*- coding: utf-8 -*-
# 上面那句让代码里支持中文
#--------------------------------...
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。
从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。代码如下:
# -*- coding: cp936 -*-
import urllib2
import urllib
mmurl="http://mm.taobao.com/json/request_top_list.htm?type=0&page="
i=0#第二页有个人的页面没图片,会出现IO错误
while i<15:url=mmurl+str(i)#print url #打印出列表的urlup=urllib...
花瓣图片的加载使用了延迟加载的技术,源代码只能下载20多张图片,修改后基本能下载所有的了,只是速度有点慢,后面再优化下import urllib, urllib2, re, sys, os,requests
path=r"C:\wqa\beautify"
url = http://huaban.com/favorite/beauty
#http://huaban.com/explore/zhongwenlogo/?ig1un9tq&max=327773629&limit=20&wfl=1
i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like ...
1.完整代码:
import time
import urllib.request #发送网络请求,获取数据
import gzip #压缩和解压缩模块
import json #解析获得的数据
from tkinter import * root1 = Tk() #用tkinter建立根窗口
root1.title(天气查询xgj@V1.0)#窗口标题
root1.geometry(1300x800+500+0) #注意x=是小写的字母x,不是乘号
root1.configure(bg=black) #构建一个函数,bg=背景颜色设置
Label(root1,text = 请输入要...
打开第一个链接,查看详细信息关键点在于
前一个.jpg是原图,可以通过操作字符串的方式改写得到原链接
更早时候发布的图片,链接方式不一样这里写一个判断获取的src是否为空就可以区分
关键问题解决,整理下思路
1.https://www.gracg.com/p599367964217379?page=1
改变“page=x”可以得到所有的图片的目录列表------format可以操作
2.xpath得到每个缩略图所指向的图片单独链接
def get_infos(url):res=requests.get(url,headers=he...