python——爬取学而思官网

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python——爬取学而思官网，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5360字，纯文字阅读大概需要8分钟。

内容图文


```python
import re
import time
import pandas  as pds
import numpy
import urllib.request
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()  #驱动谷歌浏览器

#进入网站
def enter(url,element):
     wait = WebDriverWait(browser, 2)
     try:
         browser.get(url)
         wait.until(
             EC.presence_of_element_located((By.XPATH,element)),
         )
     except TimeoutException:
          result = "在"+url+'\n'+'未定位到'+element
          print(result)

#获取节点的文本信息
def get_detail(element):    
    try:
        elements = browser.find_element_by_xpath(element)
        detail = elements.text
    except :
        detail = "无"
    return detail

#获取节点的属性信息
def get_element_attribute(element, attribute):
    elements = browser.find_element_by_xpath(element)
    return elements.get_attribute(attribute)

#点击节点
def click_element(element):
    elements = browser.find_element_by_xpath(element).click()
    
#输入内容并回车
def send_word(element,text):
    elements = browser.find_element_by_xpath(element)
    elements.send_keys(text)
    elements.send_keys(Keys.ENTER)

def clear_word(element):
    elements = browser.find_element_by_xpath(element).clear()
     
def get_ele_cnt(element):
     lis = browser.find_elements_by_xpath(element)
     return len(lis)
    
#获取A年级有多少条，多少页数据
def get_each_class(element1,element2):
    m = get_detail(element1)
    lis = browser.find_elements_by_xpath(element2)
    n = lis[-1].text
    return m,n

#获取每个班级的详细信息
def get_class_detail(element):
     classname         = get_detail(element+'//div[@class="item_header"]/div[1]')
     teaching_mode = get_detail(element+'//div[@class="item_header"]/div[2]')
     dtbegindate      = get_detail(element+'//div[@class="item_info"]/span[1]')
     dtdate               = get_detail(element+'//div[@class="item_info"]/span[2]')
     address             = get_detail(element+'//div[@class="item_info"]/span[3]')
     teacher_main    = get_detail(element+'//div[@class="teacher"]/div[@class="teacher_main"]')
     teacher_vice     = get_detail(element+'//div[@class="teacher"]/div[@class="teacher_vice"]')
     if teaching_mode=="在线":
          teacher_tag      = get_detail(element+'//div[@class="teacher"]/div[@class="remain_tag"]')
     else:
          teacher_tag      = get_detail(element+'//div[@class="teacher"]/div[@class="teacher_tag"]')
     class_price        = get_detail(element+'//div[@class="item_footer"]/div[@class="left"]')
     return classname,teaching_mode,dtbegindate,dtdate,address,teacher_main,teacher_vice,teacher_tag,class_price

#添加部门，年级
def sdept_grade(i,j):
     if i == 1:
         sdept = "幼儿部"
         if j == 1:
             classtype = "托班"
         elif j == 2:
             classtype = "小班"
         elif j==3:
             classtype = "中班"
         elif j==4:
             classtype = "大班"
     elif i ==2:
         sdept = "小学部"
         if j == 1:
             classtype = "一年级"
         elif j == 2:
             classtype = "二年级"
         elif j==3:
             classtype = "三年级"
         elif j==4:
             classtype = "四年级"
         elif j==5:
             classtype = "五年级"
         elif j==6:
             classtype = "六年级"
         elif j==7:
             classtype = "小学组"
     elif i==3:
         sdept = "初中部"
         if j == 1:
             classtype = "初一"
         elif j == 2:
             classtype = "初二"
         elif j==3:
             classtype = "中考"
         elif j==4:
             classtype = "初中组"
     else:
         sdept = "高中部"
         if j == 1:
             classtype = "高一"
         elif j == 2:
             classtype = "高二"
         elif j==3:
             classtype = "高考"
         elif j==4:
             classtype = "高中组"
     return (sdept,classtype)

#写入csv
#获取url中的表并写入文件
def write_csv(i , school):
        writeschool=pds.DataFrame([[i,school]])
        writeschool.to_csv('C:/Users/Administrator/Desktop/一批文分数线.csv', sep=',', mode='a',index = False,header = False)  

#主函数
def main():
    url = 'https://www.speiyou.com/shanxi_xian/list'
    enter(url, '//*[@id="test"]/div/ul/li[1]/a')            #进入网站并获取节点
    click_element('//div[@class="modal_btn"]')       #点击"我知道了"

    #多个年级，班级个数
    for  i in range(1,5):
          if i == 2:
               jj = 8
          else:
               jj = 5
          for j in range(1,jj):
            (sdept,grade)=sdept_grade(i,j)
            #点击年级下拉键，点选A年级
            click_element('//*[@id="__layout"]/div/header/div[3]/div/span/div[2]/span')  #点击年级下拉
            click_element('//div[@class="grade_container"]//li['+str(i)+']/div/span['+str(j)+']')
            time.sleep(3)
            #获取A年级的总条数m,总页数n
            (m,n)=get_each_class('//span[@class="el-pagination__total"]','//ul[@class="el-pager"]//li')
            print(m, n)
            
            #进入第1到n页
            for page in range(1,int(n)+1):
                print(page)
                #点击下一页
                click_element('//*[@id="__layout"]/div/div/section/div[3]/div/button[2]/i')
                #获取每页的班级数量
                classcnt = get_ele_cnt('//*[@id="__layout"]/div/div/section/div[2]/div[@class="card_list"]/div')
                #获取每个班级课程信息，部门,年级,班级名称,授课类型,上课日期,上课时间,上课地点,主讲教师,辅导教师,班级状态,价格
                for k in range(1,classcnt+1):
                     (classname,teaching_mode,dtbegindate,dtdate,address,teacher_main,teacher_vice,teacher_tag,class_price)=get_class_detail('//*[@id="__layout"]/div/div/section/div[2]/div[@class="card_list"]/div['+str(k)+']')
                     s_time = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
                     #写入Excel或数据库中
                     writeschool=pds.DataFrame([[s_time,sdept,grade,m,classname,teaching_mode,dtbegindate,dtdate,address,teacher_main,teacher_vice,teacher_tag,class_price]])
                     writeschool.to_csv('C:/Users/Administrator/Desktop/学而思finnal.csv', sep=',', mode='a',index = False,header = False,encoding='utf_8_sig')
    browser.close()    #关闭浏览器


    
#调用主函数
if __name__ ==  "__main__":
     main()

点赞
收藏
分享
- 文章举报

乔眉发布了55 篇原创文章 · 获赞 17 · 访问量 1万+ 私信关注

内容总结

以上是互联网集市为您收集整理的python——爬取学而思官网全部内容，希望文章能够帮你解决python——爬取学而思官网所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/640986.html

来源：【匿名】

【上一篇】剑指offer（python）--树【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python——爬取学而思官网】教程文章相关的互联网学习教程文章

from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaExceptionclient = ZhihuClient()try:client.login(‘email_or_phone‘, ‘password‘)print(u"登陆成功!") except NeedCaptchaException:# 保存验证码并提示输入，重新登录with open(‘a.gif‘, ‘wb‘) as f:f.write(client.get_captcha())captcha = input(‘please input captcha:‘)client.login(‘+8613872273541‘, ‘z289784552‘, capt...

Python3爬取百度百科（配合PHP）【代码】【图】

用PHP写了一个网页，可以获取百度百科词条：http://www.selflink.cn/xiaobaike（只爬取摘要部分）那么通过Python来爬取，只需要不断向这个网页POST数据，获取返回值就可以了。由于是我自己的网页，保存返回值我也让PHP在服务器端来完成了，所以Python的任务只需要不断向服务器POST数据。那么POST什么数据呢？暂时找到了一个名词大全的网页。http://cidian.911cha.com/cixing_mingci.html足足20页的名词，足够作为名词POST数据的来...

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

日期：2020.01.27博客期：135星期一　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）　　网站的相关热词来源...

python爬有道翻译【代码】

在有道翻译页面中打开开发者工具，在Headers板块找到Request URL以及相应的data。 import urllib.request import urllib.parse import jsoncontent=input(‘请输入需要翻译的内容:‘)#_o要去掉，否则会出先error_code:50的报错 url=‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule‘data={} #开发者工具里有，i和doctype键不可少 data[‘i‘]=content data[‘from‘]=‘AUTO‘ data[‘to‘]=‘AUTO‘ data...

利用Python爬取fofa网页端数据【代码】

安装环境：pip install requests pip install lxml pip install fire使用命令：python fofa.py -s=title="你的关键字" -o="结果输出文件" -c="你的cookie" 代码如下：import requests,time,base64,fire from lxml import etree def fofasc(s,o,c):try:sbase64 = (base64.b64encode(s.encode(‘utf-8‘))).decode(‘utf-8‘)cookies = {"_fofapro_ars_session": c}headers = {‘User-Agent‘: ‘Mozilla/5.0 (Linux; Android 7.1.2;...

python爬微博【代码】

# -*- coding: utf-8 -*-import urllib.request import json#定义要爬取的微博大V的微博ID id=‘3924739974‘#设置代理IP proxy_addr="122.241.72.191:808"#定义页面打开函数 def use_proxy(url,proxy_addr):req=urllib.request.Request(url)req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")proxy=urllib.reque...

python爬取珞珈1号卫星数据【代码】【图】

首先登录珞珈一号数据系统查询想要的数据利用浏览器审查元素获取包含下载信息的源码将最右侧的table相关的网页源码copy到剪切板备用利用python下载数据 ## utf-8import requests import os # import urllib.requestfrom bs4 import BeautifulSoup from tqdm import tqdm import pandas as pd def saveFile(url,fileName):# ‘‘‘ 保存文件‘‘‘r = requests.get(url, stream=True)chunkSize = 256# print(‘dowloading...‘,fi...

python爬取豆瓣250存入mongodb全纪录【代码】【图】

用了一周的时间总算搞定了，跨过了各种坑，总算调试成功了，记录如下：1、首先在cmd中用命令行建立douban爬虫项目scrapy startproject douban2、我用的是pycharm，导入项目后，1）在items.py中定义爬取的字段items.py代码如下：123456789101112# -*- coding: utf-8 -*-import scrapy class DoubanBookItem(scrapy.Item): name = scrapy.Field() # 书名 price = scrapy.Field() # 价格 edition_year...

python爬取标题和作者时间的小程序

#encoding:UTF-8import urllib.parseimport urllib.requestimport base64import reimport sysimport timefrom random import sampleimport codecsfrom html.parser import HTMLParserlog = ‘gogogo.txt‘logfile = codecs.open(log,‘w‘,‘utf-8‘)class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.a=0 self.span=0; def handle_starttag(self,tag,attrs): ...

python 爬图片【代码】【图】

学了两天python，语法慢慢熟悉吧，数据结构都没写过。写了一个爬图片的小东西。挺有意思的。都是女神照 (????)用的是正则表达式， 1‘‘‘ 2符号：3 . 匹配任意字符，\n除外4 * 匹配前一个字符一次或无限次5 ? 匹配前一个字符0次或1次6 .* 贪心匹配7 .*? 非贪心匹配8 () 返回括号内容9方法： 10 findall 11 search 12 sub 1314用的最多的是(.*?) 15‘‘‘requests的导入，我也是醉了，还要eas...

Python爬取京东：价格、商品ID、标题、评价、店名、是否自营【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：菜鸟级程序猿代码实现import requests from lxml import etree import time import random import pandas as pd import json from sqlalchemy import create_engine from sqlalchemy.dialects.oracle import DATE,FLOAT,NUMBER,VARCHAR2 import cx_Oracle 先导入需要用的包PS：如有需要Python学...

python 爬小说【代码】

#coding=utf-8import datetime import time import sys import os import urllib2 import urllibsx = ‘小说站网址‘type = sys.getfilesystemencoding() user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘ headers = { ‘User-Agent‘ : user_agent } fo = open("note.txt", "wb")def getHtml(url): try: request = urllib2.Request(url, headers=headers) response = urllib2.urlopen(request) data = ...

python爬取网页内容demo【代码】

1#html文本提取 2from bs4 import BeautifulSoup3 html_sample = ‘ 4<html> 5<body> 6<h1 id = "title">Hello world</h1> 7<a href = "#www.baidu.com" class = "link"> This is link1</a> 8<a href = "#link2" class = "link"> This is link2</a> 9</body> 10</html>‘11 soup = BeautifulSoup(html_sample,‘html.parser‘) 12print(soup.text) 13 soup.select(‘h1‘) 14print(soup.select(‘h1‘)[0].text) 15print(soup.s...

利用python爬取点小图片，满足私欲(爬虫)【代码】

import requestsimport reimport os,syslinks=[]titles=[]headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}def get_url(page): url=‘http://www.zbjuran.com/mei/xinggan/list_13_%s.html‘%(page) data=requests.get(url,headers=headers).text data_use=re.findall(‘<div class="name"><a target="_bla...

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)【代码】【图】

简介抖音，是一款可以拍短视频的音乐创意短视频社交软件，该软件于2016年9月上线，是一个专注年轻人的15秒音乐短视频社区。用户可以通过这款软件选择歌曲，拍摄15秒的音乐短视频，形成自己的作品。此APP已在Android各大应用商店和APP Store均有上线。今天咱们就用Python爬取抖音视频准备：环境：Python3.6+WindowsIDE：你开行就好，喜欢用哪个就用哪个模块：1from splinter.driver.webdriver.chrome import Options, Chrome 2from ...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python——爬取学而思官网

python——爬取学而思官网

内容导读

内容图文

内容总结

内容备注

内容手机端

【python——爬取学而思官网】教程文章相关的互联网学习教程文章

Python爬去知乎上问题下所有图片【代码】

Python3爬取百度百科（配合PHP）【代码】【图】

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

python爬有道翻译【代码】

利用Python爬取fofa网页端数据【代码】

python爬微博【代码】

python爬取珞珈1号卫星数据【代码】【图】

python爬取豆瓣250存入mongodb全纪录【代码】【图】

python爬取标题和作者时间的小程序

python 爬图片【代码】【图】

Python爬取京东：价格、商品ID、标题、评价、店名、是否自营【代码】【图】

python 爬小说【代码】

python爬取网页内容demo【代码】

利用python爬取点小图片，满足私欲(爬虫)【代码】

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程