Python之爬取CSND博客

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python之爬取CSND博客，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3380字，纯文字阅读大概需要5分钟。

内容图文

“简说Python”，选择“置顶/星标公众号”
福利干货，第一时间送达！
Python之爬取CSND博客 - 文章图片

1.知识点要求

2.1 Python基础知识（List和Tuple）
2.2 urllib模块、超时设置、自动模拟http请求之get方法和post方法
2.3 异常处理与浏览器伪装技术实战
如果你对相关知识有些遗忘，可以点上面的链接，熟悉一下相关知识点。

2.爬取CSND博客首页信息实战

目的：爬取csdn博客首页上的所有新闻连接，并下载到本地文件夹中。

（1）进入csdn博客首页(https://blog.csdn.net/)，点击鼠标右键，点击查看网页源代码，然后，在源代码网页中按ctrl + f键，会出现搜索框。
（2）在博客首页中复制一些新闻的标题，然后在搜索框中搜索复制的标题，找到搜索到的内容，观察该新闻的连接特征。再多换几个标题试试。

Python之爬取CSND博客 - 文章图片
在这里插入图片描述

（3）换了几个标题之后你会发现大多数的连接的局部地方，都只是红色部分的连接不一样，其余部分一样。那这样我们可以设置正则表达式<a.?href="(.?)" target="_blank"
Python之爬取CSND博客 - 文章图片

（4）对csdn首页的信息进行爬取

#首先导入模块
import re
import urllib.request
import urllib.error

#要爬取的网页的网站
url = "https://blog.csdn.net/"
#获得网页当前信息
page = urllib.request.urlopen(url).read().decode('utf-8', 'ignore') #参数'ignore'表示解码遇到异常时忽略异常，继续解码
#设置正则表达式
pat = '<a.*?href="(.*?)" target="_blank"'
#从网页信息中匹配出我们要的信息
links = re.compile(pat).findall(page)
print(links[:12])
#存放爬取的新闻网址信息
for i in range(0, len(links)):
    #防止出现异常，而停止信息爬取，采用异常处理措施
    try:
        urllib.request.urlretrieve(links[i], "D:\\python\\news\\"+str(i)+".html")
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)
print('爬取成功！')

（5）运行上面的代码我们会发现错误，爬取信息爬到了一半就中断了，分析错误原因，发现是出现了非网址的字符串

Python之爬取CSND博客 - 文章图片
（6）所以，我要用语句links = [link for link in links if link[:4]=='http']将不是网址的字符串过滤掉，所以，最终代码如下：

#首先导入模块
import re
import urllib.request
import urllib.error

#要爬取的网页的网站
url = "https://blog.csdn.net/"
#获得网页当前信息
page = urllib.request.urlopen(url).read().decode('utf-8', 'ignore') #参数'ignore'表示解码遇到异常时忽略异常，继续解码
#设置正则表达式
pat = <a.*?href="(.*?)" target="_blank"'
#从网页信息中匹配出我们要的信息
links = re.compile(pat).findall(page)
print(len(links))
#爬取的过程中发现了异常，存在：<a href="/nav/ai" target="_blank">这样的代码，获取的不是网址，所有要进行过滤
links = [link for link in links if link[:4]=='http']
print(len(links))
#存放爬取的新闻网址信息
for i in range(0, len(links)):
    #防止出现异常，而停止信息爬取，采用异常处理措施
    try:
        urllib.request.urlretrieve(links[i], "D:\\python\\news\\"+str(i)+".html")
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)
print('爬取成功！')

（7）运行程序，可以看见我们过滤掉了21个非网址字符串，我这里是从0开始一直爬到122，说明我获取到的网页信息全部爬取成功！

Python之爬取CSND博客 - 文章图片

我是老表，踏实的人更容易过好生活，本文完。

内容总结

以上是互联网集市为您收集整理的Python之爬取CSND博客全部内容，希望文章能够帮你解决Python之爬取CSND博客所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/613765.html

来源：【匿名】

【上一篇】用Python绘制近20年地方财政收入变迁史视频【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python之爬取CSND博客】教程文章相关的互联网学习教程文章

需求：爬取网站上的公司信息代码如下：import json import os import shutil import requests import re import timerequests.packages.urllib3.disable_warnings()#通过url请求接口，获取返回数据def getPage(url,headers):try:response = requests.get(url=url, headers=headers, verify=False)response.encoding = ‘utf-8‘if response.status_code == 200:#print (response.text)return response.textelse:print(‘请求异常：...

Python爬取博客园新闻代码【代码】【图】

核心模块：requests ：安装指令 pip3 install requestsBeautifulSoup :安装指令 pip3 install beautifulsoup4代码：import requests import bs4 import osresponse=requests.get(‘https://news.cnblogs.com/‘) response.encoding=response.apparent_encodingfrom bs4 import BeautifulSoup soup=bs4.BeautifulSoup(response.text,features=‘html.parser‘) newslist=soup.find_all(‘div‘,class_="content") #print(newslist)f...

利用Python爬取豆瓣电影【代码】【图】

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影:我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE　　有3个字段是非常重要的:　　　　1.sort=T　　　　2.range=0,10　　　　3.tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%9...

【学习笔记】python爬取百度真实url【代码】【图】

今天跑个脚本需要一堆测试的url，，，挨个找复制粘贴肯定不是程序员的风格，so，还是写个脚本吧。环境：python2.7 编辑器：sublime text 3 一、分析一下首先非常感谢百度大佬的url分类非常整齐，都在一个类下 650) this.width=650;" src="/upload/getfiles/default/2022/11/5/20221105094416540.jpg" title="QQ截图20170908143211.png" /> 即c-showurl,所以只要根据css爬取链接就可以，...

Python爬取内涵段子里的段子【代码】【图】

环境：Python3.6#!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛'import requests import jsondef get_json_dic(url): global dict_json response = requests.get(url=url) json_response = response.content.decode() #获取r的文本就是一个json字符串 dict_json = json.loads(json_response) # 将json字符串转换成dic字典对象 return dict_jsondef get_joke(dict_json): ...

2018-7-12python爬取历史天气数据【代码】

2018-7-12python爬取历史天气数据python 爬虫天气数据需求需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。from bs4 import BeautifulSoup as bsp import urllib,http.cookiejar,re,time #对excel的操作，可以添加sheetimport xlwt #拼接两个csvimport glob import time# 做好cookie管理工作 cookie=http.cookiejar.CookieJar() # 创建空CookieJar cj=urllib.r...

Python爬取电影天堂指定电视剧或者电影【代码】【图】

1.分析搜索请求一位高人曾经说过，想爬取数据，要先分析网站今天我们爬取电影天堂，有好看的美剧我在上面都能找到，算是很全了。这个网站的广告出奇的多，用过都知道，点一下搜索就会弹出个窗口，伴随着滑稽的音乐，贪玩蓝月？通过python，我们可以避免广告，直接拿到我们要的东西我用的是火狐浏览器，按F12打开开发者工具，选择网络按照正常的操作顺序，其实python就是在模拟人进行一些网页操作，我们只不过通过python解放自己的双...

毕设一:python 爬取苏宁的商品评论【代码】【图】

毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_poolua:fake_useragent 1# 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.com/recommend-portal/recommendv2/biz.jsonp?parameter=%E5%8D%8E%E4%B8%BA&sceneIds=2-1&count=103 4# 评价 5 https://review.suning.com/ajax/cluster_review_lists/general-30259269-000000010748901691-0000000000-total-1-d...

Python3爬取Wallhaven.cc图片【代码】【图】

https://wallhaven.cc/ 上有很多优秀壁纸图片，网站访问速度有点慢，还是抓下来看比较方便。1、安装python32、pip安装requests、lxml3、运行代码 # -*- coding: utf-8 -*- #wallhaven爬取import os from urllib.parse import urlencode import time from requests import codes import random import requests from lxml import etree#定义创建文件路径函数，将下载的文件存储到该路径def CreatePath(filepath):ifnot os.path.exi...

第一篇博客（python爬取小故事网并写入mysql）【代码】

前言：　　这是一篇来自整理EVERNOTE的笔记所产生的小博客，实现功能主要为用广度优先算法爬取小故事网，爬满100个链接并写入mysql，虽然CS作为双学位已经修习了三年多了，但不仅理论知识一般，动手能力也很差，在学习的空余时间前前后后DEBUG了很多次，下面给出源代码及所遇到的BUG。　　本博客参照代码及PROJECT来源：http://kexue.fm/archives/4385/源代码： 1import requests as rq2import re3import codecs4import queue5impo...

python爬取商品信息【代码】

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。需求：某网的商品信息，包括商品名，市场价和售价工具：python2.7.8，urllib2，re#coding = utf-8import urllib2 import repath = "aaa.txt" f = open(path, ‘w+‘)for i in range(4980, 4991):print i# get webpage contenturl = "http://*" + str(i) + "*"page = urllib2.urlopen(url).read()# Regular matchingmatchTitle = re.search(r‘...

python爬图【代码】

闲的无事，看着知乎里种种python优点，按捺不住，装起python3.4。网上找了点爬行图片的代码，修改至兼容3.4，成功爬行指定url所有jpg图片，代码段如下：import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object):def__init__(self, url):self.url = urldef parse(self,content):pattern = ‘src="(http://.*\.jpg)\s*"‘matchs = re....

python爬取网页图片并保存到本地【代码】【图】

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return html.text将其先导入文本文件观察发现图片的地址所在...

Python爬取淘宝店铺和评论【代码】

1 安装开发需要的一些库(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:...

Python 爬取qqmusic音乐url并批量下载【代码】

qqmusic上的音乐还是不少的，有些时候想要下载好听的音乐，但有每次在网页下载都是烦人的登录什么的。于是，来了个qqmusic的爬虫。　　至少我觉得for循环爬虫，最核心的应该就是找到待爬元素所在url吧。下面开始找吧（讲的不对不要笑我）#寻找url：　　这个url可不想其他的网站那么好找。把我给累得不轻，关键是数据多，从那么多数据里面挑出有用的数据，最后组合为music真正的music。昨天做的时候整理的几个中间url：#url1：https...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python之爬取CSND博客

Python之爬取CSND博客

内容导读

内容图文

1.知识点要求

2.爬取CSND博客首页信息实战

内容总结

内容备注

内容手机端

【Python之爬取CSND博客】教程文章相关的互联网学习教程文章

python爬取网业信息案例【代码】【图】

Python爬取博客园新闻代码【代码】【图】

利用Python爬取豆瓣电影【代码】【图】

【学习笔记】python爬取百度真实url【代码】【图】

Python爬取内涵段子里的段子【代码】【图】

2018-7-12python爬取历史天气数据【代码】

Python爬取电影天堂指定电视剧或者电影【代码】【图】

毕设一:python 爬取苏宁的商品评论【代码】【图】

Python3爬取Wallhaven.cc图片【代码】【图】

第一篇博客（python爬取小故事网并写入mysql）【代码】

python爬取商品信息【代码】

python爬图【代码】

python爬取网页图片并保存到本地【代码】【图】

Python爬取淘宝店铺和评论【代码】

Python 爬取qqmusic音乐url并批量下载【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程