首页 / PYTHON / python使用urllib模块和pyquery实现阿里巴巴排名查询

python使用urllib模块和pyquery实现阿里巴巴排名查询

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python使用urllib模块和pyquery实现阿里巴巴排名查询，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1847字，纯文字阅读大概需要3分钟。

内容图文

urllib基础模块的应用，通过该类获取到url中的html文档信息，内部可以重写代理的获取方法

代码如下:

class ProxyScrapy(object):
def __init__(self):
self.proxy_robot = ProxyRobot()
self.current_proxy = None
self.cookie = cookielib.CookieJar()

def __builder_proxy_cookie_opener(self):
cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)
handlers = [cookie_handler]

if PROXY_ENABLE:
self.current_proxy = ip_port = self.proxy_robot.get_random_proxy()
proxy_handler = urllib2.ProxyHandler({'http': ip_port[7:]})
handlers.append(proxy_handler)

opener = urllib2.build_opener(*handlers)
urllib2.install_opener(opener)
return opener

def get_html_body(self,url):
opener = self.__builder_proxy_cookie_opener()

request=urllib2.Request(url)
#request.add_header("Accept-Encoding", "gzip,deflate,sdch")
#request.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
#request.add_header("Cache-Control", "no-cache")
#request.add_header("Connection", "keep-alive")

try:
response = opener.open(request,timeout=2)

http_code = response.getcode()
if http_code == 200:
if PROXY_ENABLE:
self.proxy_robot.handle_success_proxy(self.current_proxy)
html = response.read()
return html
else:
if PROXY_ENABLE:
self.proxy_robot.handle_double_proxy(self.current_proxy)
return self.get_html_body(url)
except Exception as inst:
print inst,self.current_proxy
self.proxy_robot.handle_double_proxy(self.current_proxy)
return self.get_html_body(url)

内容总结

以上是互联网集市为您收集整理的python使用urllib模块和pyquery实现阿里巴巴排名查询全部内容，希望文章能够帮你解决python使用urllib模块和pyquery实现阿里巴巴排名查询所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/432698.html

来源：【匿名】

【上一篇】python的urllib模块显示下载进度示例【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python使用urllib模块和pyquery实现阿里巴巴排名查询】教程文章相关的互联网学习教程文章

Python基础知识之模块【代码】

一、syssys.argv　　命令行参数List，第一个元素是程序本身路径sys.exit(n) 　退出程序，正常退出时exit(0)sys.version 获取Python解释程序的版本信息sys.path 返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值sys.platform 返回操作系统平台名称sys.stdin 输入相关sys.stdout 输出相关例子：进度条import sysimport timedef view_bar(num, total): rate = float(num) / float(total) rat...

python_os模块【代码】

os模块 1import os2 3 os.remove(‘path‘) #删除指定路径的文件 4 os.rename("src","dst") #命名文件或目录 5 os.mkdir(‘case‘) #创建目录 6 os.makedirs(‘case/login‘) #递归创建目录 7 8print(os.listdir(r‘path‘) ) #方法用于返回指定的文件夹包含的文件或文件夹的名字的列表 9print(os.path.isdir(r‘path‘)) #用于判断对象是否为一个目录，返回True 或 false10print(os.path.isfile(r‘path‘)) #用于判断对象是否...

python的pyserial模块【代码】

pyserial是python提供用于进行串口通信的库源文档：https://pythonhosted.org/pyserial/1、安装pyserialpip install pyserial2、查看电脑现连串口设备import serial.tools.list_ports#检测设备的端口数 # plist = list(serial.tools.list_ports.comports())# if len(plist) <= 0: # print("没有发现端口!") # else: # #端口数 # print len(plist)# plist_0 = list(plist[1]) # serialName = plist_0[0] # ...

Python shutil模块【代码】

参考链接： https://www.cnblogs.com/zhangboblogs/p/7821702.html　　　　　 https://www.cnblogs.com/xiangsikai/p/7787101.html找了一圈的博客发现大大小小都有问题，还是看源码吧@app.route(‘/index/‘, methods=[‘GET‘, ‘POST‘]) def index():import osimport shutilif request.method == ‘GET‘:return render_template(‘index.html‘)# POSTfile_obj = request.files.get(‘code‘)# print(file_obj) # <FileSto...

python里面的xlrd模块详解（一）【代码】【图】

那我就一下面积个问题对xlrd模块进行学习一下：1.什么是xlrd模块？2.为什么使用xlrd模块？3.怎样使用xlrd模块？1.什么是xlrd模块？　　?python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。今天就先来说一下xlrd模块：一、安装xlrd模块　　? 到python官网下载http://pypi.python.org/pypi/xlrd模块安装，前提是已经安装了python 环境。　　?或者在cmd窗口 pip install xlrd二、使用介绍 1、常用单...

Python使用ctypes模块调用C/C++【代码】

最近在做图卷积相关的实验，里面涉及到图采样，该过程可以抽象为：从一个包含n个节点,m条边的图中根据一定规则采样一个连通图。由于实验使用的是FB15k-237数据集，共包含14541个节点，272115条边，每次采样30000条边，采样一次需要8s，这对于深度学习实验来说是难以接受的，会导致GPU长时间空闲。因此我开始尝试使用C/C++优化代码，虽然最后优化效果不行，但是也是对python调用C代码的一次学习，因此在此纪录一下。Python原代码 de...

Python模块:heapq堆

这个模块提供了堆队列算法的实现，也称为优先队列算法堆是一个二叉树，它的每个父节点的值都只会小于或大于所有孩子节点(的值),他使用了数组来实现。堆最小的元素总是在根节点:heap[0] 要创建一个堆，可以使用list来初始化为[],或者你可以通过一个函数heapify(),来把一个list转换成堆定义了以下函数:1.heapq.heappush(heap.item)将item的值加入到heap中，保持堆的不变性 2.heapq.heappop(heap)弹出并返回heap的最小的元素，保持堆的...

【转】Python中操作mysql的pymysql模块详解

Python中操作mysql的pymysql模块详解前言pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本：2.7.11。mysql版本：5.6.24一、安装1pip3 install pymysql二、使用操作1、执行SQL1234567891011121314151617181920212223242526#!/usr/bin/env pytho# -*- coding:utf-8 -*-importpymysql # 创建连接conn =pymysql.connect(host=‘127.0.0.1‘, port=...

Python 正则表达模块详解(7)【代码】

Python 的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承.Python是纯粹的自由软件,源代码和解释器CPython遵循 GPL(GNU General Public License)协议.关于python的哲学：python崇尚:"优雅"、"明确"、"简单",Python是用最简单最优雅最明确的方法来解决问题.正则表达式(Regluar Expressions)又称规则表达式,这个概念最初是由...

python学习之路——基础篇（3）模块（续）【代码】

re正则表达式、shutil、ConfigParser、xml一、re正则元字符和语法：语法说明　　表达式完全匹配字符　　　　　　　　　　字符一般字符　　匹配自身abc　　abc.匹配除换行符“\n”外,任意一个字符a.cabc\　　　　　　转义字符,将特殊字符转义为本身a\.ca\\ca.ca\c[...]匹配字符集任意一个字符，或者“-”表示一个集合范围如：[a-zA-Z0-9]匹配范围中任意一个字符；或者[^]匹配否定，对括号中的内容取反。[abc]efgaefgbefgcefg　　　　...

python re模块详解【代码】

匹配数字相关‘.‘ 默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行‘^‘ 匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)‘$‘ 匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以‘*‘ 匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac") 结果为[‘abb‘, ‘ab‘, ‘a‘]‘+‘ 匹配...

python configparser模块【代码】

来看一个好多软件的常见文档格式如下：[DEFAULT] ServerAliveInterval = 45 Compression = yes CompressionLevel = 9 ForwardX11 = yes[bitbucket.org] User = hg[topsecret.server.com] Port = 50022 ForwardX11 = no 如果想用python生成一个这样的文档怎么做呢？import configparserconfig = configparser.ConfigParser() config["DEFAULT"] = {‘ServerAliveInterval‘: ‘45‘,‘Compression‘: ‘yes‘,‘CompressionLevel‘...

python学习笔记(22) 模块

加载模块：　　1.先从sys.modules里查看是否已导入　　2.如果没有导入，就依据sys.path路径寻找模块　　3.找到模块就导入　　4.创建这个模块的命名空间　　5.执行文件，把文件中的名字放到命名空间里执行demo.read会优先查找demo里的函数和变量import time as t　　#给模块起别名，原名不再可用if file_format == ‘xml‘:　　import xmlreader as readerelif file_format == ‘csv‘:　　import csvreader as readerdata = reade...

python学习笔记二：if语句及循环语句，断点，模块，pyc

if语句注意：语句块中的内容要强制缩进，否则出错。IndentationError，缩进错误所有代码，如果是顶级的，必须顶格写，前面不能有空格if … : …elif … : …else: … while语句while …: …else: …for语句for i in range(10)——i默认0，步长默认1,最大为9for i in range (0,2,10)——从0开始，步长为2，最大为8for i in range(…): …else: …break——结束本层循环...

python常用模块之json和pickle模块

json模块json.dumps 将 Python 对象编码成 JSON 字符串json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。 pickle pickle.dump(obj, file, [,protocol])含义：pickle.dump（对象，文件，[使用协议]）将要持久化的数据“对象”，保存到“文件”中，使用有3种协议，索引0为ASCII，1为旧式二进制，2为新式二进制协议，不同之处在于2要更高效一些。默认dump方法使用0做协议pickle.load(file)含义：pickle....

首页 / PYTHON / python使用urllib模块和pyquery实现阿里巴巴排名查询

python使用urllib模块和pyquery实现阿里巴巴排名查询

内容导读

内容图文

内容总结

内容备注

内容手机端

【python使用urllib模块和pyquery实现阿里巴巴排名查询】教程文章相关的互联网学习教程文章

Python基础知识之模块【代码】

python_os模块【代码】

python的pyserial模块【代码】

Python shutil模块【代码】

python里面的xlrd模块详解（一）【代码】【图】

Python使用ctypes模块调用C/C++【代码】

Python模块:heapq堆

【转】Python中操作mysql的pymysql模块详解

Python 正则表达模块详解(7)【代码】

python学习之路——基础篇（3）模块（续）【代码】

python re模块详解【代码】

python configparser模块【代码】

python学习笔记(22) 模块

python学习笔记二：if语句及循环语句，断点，模块，pyc

python常用模块之json和pickle模块

PYTHON - 相关标签

URLLIB - 相关标签

QUERY - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程