python动态网页批量爬取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python动态网页批量爬取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4828字，纯文字阅读大概需要7分钟。

内容图文

四六级成绩查询网站我所知道的有两个：学信网（http://www.chsi.com.cn/cet/）和99宿舍（http://cet.99sushe.com/），这两个网站采用的都是动态网页。我使用的是学信网，好了，网站截图如下：

python动态网页批量爬取 - 文章图片

网站的代码如下：

由图中可以看出表单提交的链接为/cet/query，即：http://www.chsi.com.cn/cet/query，好了，填写表单和结果如下：

python动态网页批量爬取 - 文章图片

但是，点击查看源代码之后发现，没有成绩，即代码仍是上面那个，之后按F12查看代码：


姓名：
XXXX

学校：
XXXXXX

考试类别：
英语四级

准考证号：
120135151100101

考试时间：
2015年06月总分：403 
听力： 132 
阅读： 147 
写作与翻译： 124

该代码显示了成绩，可以知道，该网站使用的是动态网页，用的JavaScript或者Ajax.js还是其他的我就不知道了0.0。上面为需求。

前言：使用过BeautifulSoup爬取过，但是BeautifulSoup是爬取不了动态网页的，上各种论坛找各种资料，用了n种东西，scapy,pyqt等等，走了真心不少弯路，不是不行，应该是我不会用，最终用了selenium和phantomjs，这两个应该也是目前最流行的爬虫模块了吧。

一、导入selenium和phantomjs

from selenium import webdriver

driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')
driver.get(url)
driver.find_element_by_id('zkzh').send_keys(i)
driver.find_element_by_id('xm').send_keys(xm)
driver.find_elements_by_tag_name('form')[1].submit()

代码说明：

　　3.selenium可以加载很多驱动，比如Chrome、FireFox等，这里需要有这两个浏览器和驱动才行，折腾了一下，网上说Phantomjs是较好的了

　　5、6、7分别是准考证号，姓名和提交

二、字符处理

提交之后就可以直接查找了:

print driver.find_element_by_xpath("//tr[3]/td[1]").text
print driver.find_element_by_xpath("//tr[6]/td[1]").text

代码说明：

　　1.查看姓名

　　2.查看分数及其具体成绩

打印之后为：

姓名
听力
阅读
写作

　　之后要对分数进行字符串处理，选取各部分的数字，这里我们采用re模块：

 import re
m = re.findall(r'(\w*[0-9]+)\w*', chuli2)

其中m是数组，输出的是["403","132","147","142"]

三、数据库

　　我们学校也不知说很渣还是人性化，反正公布了全校的四六级准考证号，当然，是excel的，需要导入mysql数据库，打开Excel之后，我发现微软大法和Oracle真是牛，Excel365居然有mysql workbench连接部分。

python动态网页批量爬取 - 文章图片

数据库代码如下：

import MySQLdb

conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')
cur = conn.cursor()
curr = conn.cursor()
cur.execute("select name from cet.cet where zkzh=(%s)" % i)
xm = cur.fetchone()[0]
print "Name is " + xm
sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (
  ss, m[0], m[1], m[2], m[3], i)
cur.execute(sqltxt)
conn.commit()
cur.close()
conn.close()

代码说明：

　　3.python连接数据库代码

　　6.连接数据库取得姓名部分

　　9.这行我好无语啊，使用‘“+ss+”'这样的写法一直报错，最终找了半天资料，这个写法我不太喜欢，但是凑合着用吧。

　　12.记得一定要提交事务！！！commit（）！！！不然是没有效果的

四、使用代理服务器（保留以后写）

　　运行了一段时间之后，大概抓了几百人的吧，然后就出现要求验证码了，解决办法只能处理验证码或者使用代理服务器了，这部分继续加强学习再弄出来了↖(^ω^)↗

五、源代码和效果

# encoding=utf8

import MySQLdb
import re
import time

from selenium import webdriver

# connect mysql,get zkxh and xm
conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')
cur = conn.cursor()
curr = conn.cursor()
url = 'http://www.chsi.com.cn/cet/query'


def kaishi(i):
 print i,
 print " start"
 try:
 cur.execute("select name from cet.cet where zkzh=(%s)" % i)
 xm = cur.fetchone()[0]
 print "Name is " + xm
 driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')
 driver.get(url)
 driver.find_element_by_id('zkzh').send_keys(i)
 driver.find_element_by_id('xm').send_keys(xm)
 driver.find_elements_by_tag_name('form')[1].submit()
 driver.set_page_load_timeout(10)
 leibie = driver.find_element_by_xpath("//tr[3]/td[1]").text
 leibie2 = str(leibie.encode("utf-8"))
 ss = ""
 if leibie2.decode("utf-8") == '英语四级'.decode("utf-8"):
  ss = 4
 else:
  ss = 6
 # zongfen = driver.find_element_by_xpath("//tr[6]/th[1]").text
 # print zongfen
 # print "===="
 chuli = driver.find_element_by_xpath("//tr[6]/td[1]").text
 print chuli
 chuli2 = str(chuli.encode("utf-8"))
 m = re.findall(r'(\w*[0-9]+)\w*', chuli2)
 sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (
  ss, m[0], m[1], m[2], m[3], i)
 cur.execute(sqltxt)
 conn.commit()
 print str(i) + " finish"
 except Exception, e:
 print e
 driver.close()
 time.sleep(10)
 kaishi(i)


# for j1 in range(1201351511001, 1201351512154):
for j1 in range(1201351511007, 1201351512154):
 for j2 in range(0, 3):
 for j3 in range(0, 10):
  j = str(j1) + str(j2) + str(j3)
  if str(j2) + str(j3) == "00":
  print "0.0"
  elif str(j2) + str(j3) == "29":
  kaishi(str(j1) + str(j2) + str(j3))
  j4 = str(j1) + "30"
  kaishi(j4)
  else:
  kaishi(j)
print "END!!!"
cur.close()
conn.close()

python动态网页批量爬取 - 文章图片

总结：python的字符串处理细节真的很重要，动不动就输出错误，还有IDE的编码不一样，记得还有个系统编码，字符编码，环境编码，数据库编码等等都要一致。

以上就是本文的全部内容，希望对大家的学习有所帮助。

内容总结

以上是互联网集市为您收集整理的python动态网页批量爬取全部内容，希望文章能够帮你解决python动态网页批量爬取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/434764.html

来源：【匿名】

更多 ►

【python动态网页批量爬取】教程文章相关的互联网学习教程文章

批量生成账户信息，产生的账户由@sina.com结尾，长度由用户输入，产生多少条也由用户输入，用户名不能重复，用户名必须由大写字母、小写字母和数字组成。 1def Users(num,len): # num产生多少条信息，len账号的长度 2‘‘‘ 3 用交集来判断是否包含大小写字母4 :param num: 生成几条数据5 :param len: 账号的长度6 :return:7‘‘‘ 8 results = [] # 存放结果的数组 9 uppers = set(string.ascii_uppercase) #...

python小脚本批量创建用户和ssh互信

#!/usr/bin/pythonfrom fabric.api import *for i in range(24,34): host = ‘test@172.18.22.‘ + str(i) env.hosts.append(host)env.password = ‘111111‘def addusers(): sudo(‘useradd -d /home/ctier -s /bin/bash ctier;echo ctier:"123456" | chpasswd‘) #change user password #sudo(‘echo ctier:"654321" | chpasswd‘)def createAuth(): with lcd(‘/home/ctier/‘): ...

Python脚本--批量更改本地md文件的图片链接【代码】

#-*- coding:utf-8 -*-import re import osdef patch_md(filename):if filename.endswith(‘.md‘):return Truereturn Falsedef _patch_replace(text):pattern=re.compile(r‘(?<=!)\[.*\]\((.*)(?=\))‘)result = re.findall(pattern,text)for filedir in result:if‘\\‘in filedir:listfile = filedir.split(‘\\‘)else:listfile = filedir.split(‘/‘)pattern_file = r‘(?<=!)\[.*\]\(.*[\\/]+(?=‘+listfile[-1]+r‘\))‘p...

gis python地理处理工具案例教程-字段多值批量替换综合案例【图】

gis python地理处理工具案例教程-字段多值批量替换综合案例商务合作，科技咨询，版权转让：向日葵，135-4855_4328，xiexiaokui#qq.com。先挂号后预约咨询。目的：查找字段的所有唯一值，对字段值进行批量替换。应用：语义转换，类型合并，中英文翻译。类型：地理处理框架综合应用步骤1 ：获取唯一值工具：UniqueValues 结果： water shrub 灌木 tree grass 草地 unclassified HardenedLand 硬化地 bareland 裸地 build 建築...

Python路由批量封堵--paramiko【代码】

基础代码：# -*- coding:utf-8 -*-# import 导入模块 import paramiko import time # 定义三个字符串类型的变量 ip = ‘192.168.113.133‘ username = ‘zhoujt‘ password = ‘password‘ port = 33306 # 开启SSH会话赋值给变量 ssh_client = paramiko.SSHClient() # 开启可接收陌生的ssh服务会话 ssh_client.set_missing_host_key_policy(paramiko.AutoAddPolicy()) ssh_client.connect(hostname=ip, username=username, passwor...

转变思维--使用Python生成Shell命令，批量执行程序

近日经常遇到在Linux shell中批量执行相似命令的情况。比如执行如下命令：gifsicle --delay=100 gif/App_1_hour_*_down.gif > combine_gif/App_1_hour_down.gif gifsicle --delay=100 gif/App_1_hour_*_up.gif > combine_gif/App_1_hour_up.gif gifsicle --delay=100 gif/App_2_hour_*_down.gif > combine_gif/App_2_hour_down.gif gifsicle --delay=100 gif/App_2_hour_*_up.gif > combine_gif/App_2_hour_up.gif gifsicle --dela...

python之批量文件重命名【代码】

批量文件重命名问题，生活中或是工作中会经常用到。方法比较low多试验几次就可以了。# -*- coding: utf-8 -*- # @Time :2018/8/25 20:18 # @Author : ELEVEN # @File : 011_批量重命名文件.py # @Software: PyCharmimport os# 1. 获取一个要重命名的文件夹的名字 folder_name = input("请输入要重命名的文件夹:")# 2. 获取那个文件夹中所有的文件名字 file_names = os.listdir(folder_name)# 第1中方法 # os.chdir(folder_name)#...

python 批量修改主机名【代码】

公司需要新上项目，上架20台机器，要对这些主机进行改名#!/usr/bin/env python from multiprocessing import Process, Pool import paramiko import sys,os s = paramiko.SSHClient() s.load_system_host_keys() s.set_missing_host_key_policy(paramiko.AutoAddPolicy()) def ssh_run(host_info): ip=host_info[0] username=host_info[1] password=host_info[2] hostname=host_info[3] s.connect(ip,22,usern...

ArcGis Python脚本——根据接图表批量裁切分幅影像【代码】

年前写了一个用渔网工具制作图幅接图表的文章，链接在这里：使用ArcMap做一个1:5000标准分幅图并编号本文提供一个使用ArcMap利用接图表图斑裁切一幅影像为多幅的方法。第一步，将接图表拆分，使之每一个图斑为一个要素类（Shapefile文件）拆分方法很多，提供两个参考：1、可以使用Python脚本2、可以使用ArcToolbox——分析工具——split拆分的结果是每个影像框图斑为一个Shapefile文件，所有Shapefile文件生成在一个文件夹下。第二...

python小练习02 批量修改文件名【代码】【图】

在学到修改文件名的时候想到自己下载的小说名字有点长，在手机上看时只显示前面的世纪百强...看着不怎么舒服，所以就想学以致用把名字改短一点。下面这样图就修改前的样子：1import os,sys 2 path = ‘E:\MyPython\世纪百强‘3 dirs = os.listdir(path) # 列出path下的目录4for file in dirs: 5 name = file.replace(‘‘, ‘‘) # 去掉空格6 newName = name[7:] # 去掉前面的字7 os.rename(os.path.join(path...

python批量修改word文件名【代码】【图】

最近不小心把硬盘给格式化了，由于当时的文件没有备份，所以一下所有的文件都没有了，于是只能采取补救措施，用文件恢复软件恢复了一部分的数据出来，但是恢复完毕的文件的文件名全丢了，所有的文件只有代号，如下面的图：几万个文件这要是手动的改得要改到明年。所以便动手写了一个python的脚本程序来代替这种繁杂的操作。主要想法：想让程序来理解我的word文档里到底是什么内容是不可能的了，但是好在我的word文档内容都有标题，...

Python一键搞定批量合成PDF【代码】【图】

大家好，今天分享一个实用的办公脚本：将多个PDF合并为一个PDF，例如我手上现在有如下3个PDF分册，需要整合成一个完整的PDF 如果换成你操作的话，是不是打开百度搜索：PDF合并，然后去第三方网站操作，可能会收费不说还担心文件泄漏，现在有请Python出场，简单快速，光速合并，拿走就用！首先导入需要的库和路径设置 import osfrom PyPDF2 import PdfFileReader, PdfFileWriterif __name__ == ‘__main__‘:# 设置存放多个pdf文件...

Python工具 | TOPSEC-NGFW4000-批量IP封阻器(Simple-banip)【图】

HVV期间，所服务客户的TOPSEC防火墙太老了，一级传下来几百个ip地址，都手动复制粘贴，太累。所以做个脚本，来实现批量添加ip所用到的Python模块：requests、timerequests模块：　　requests模块用来发包，构建数据包　　//requests.post(url,params,headers,data)time模块：　　time模块用来设置程序等待　　//time.sleep() 具体代码import requestsimport time #导入模块reques...

Python批量插入SQL Server数据库【代码】

因为要做性能测试，需要大量造数据到数据库中，于是用python写了点代码去实现，批量插入，一共四张表简单粗暴地插入10万条数据import pymssql import random__author__ = ‘sryan‘class GenerateData:def__init__(self):print(‘init‘)self.conn = Noneself.cur = Nonedef connect(self, host, user, password, database):try:self.conn = pymssql.connect(host=host, user=user, password=password, database=database)self.cur...

python批量修改文件名【代码】

python批量修改文件名#coding:utf-8import os# 列出当前目录的所有文件 files = os.listdir('.') for filename in files: # 分割文件名和后缀名 portion = os.path.splitext(filename) # 比较后缀名if portion[1] ==".mp3": # 修改后缀名 newname = portion[0] +".m4a" os.rename(filename, newname) # 打印出文件名 -20表示左对齐，宽度20print( "%-20s ===> %20s"% (filename, newname))### 执行效果只想嫁给你.mp3 ===> 只想嫁给...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python动态网页批量爬取

python动态网页批量爬取

内容导读

内容图文

内容总结

内容备注

内容手机端

【python动态网页批量爬取】教程文章相关的互联网学习教程文章

Python写一个批量生成账号的函数【代码】

python小脚本批量创建用户和ssh互信

Python脚本--批量更改本地md文件的图片链接【代码】

gis python地理处理工具案例教程-字段多值批量替换综合案例【图】

Python路由批量封堵--paramiko【代码】

转变思维--使用Python生成Shell命令，批量执行程序

python之批量文件重命名【代码】

python 批量修改主机名【代码】

ArcGis Python脚本——根据接图表批量裁切分幅影像【代码】

python小练习02 批量修改文件名【代码】【图】

python批量修改word文件名【代码】【图】

Python一键搞定批量合成PDF【代码】【图】

Python工具 | TOPSEC-NGFW4000-批量IP封阻器(Simple-banip)【图】

Python批量插入SQL Server数据库【代码】

python批量修改文件名【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程