python 爬虫学习笔记2

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 爬虫学习笔记2，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2086字，纯文字阅读大概需要3分钟。

内容图文

接着上一篇笔记

这次将该blog的所有文章都下载下来

思路为根据dict中的url去解析网页

并将其中的博文部分获取并下载下来

            #
            coding=utf-8
            import
             urllib2

            import
             urllib

            from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
def query_item(input,tag=None,cla=None):
    ‘‘‘
    获取对应url中 div标签 class的对象
    返回的是set对象p
    ‘‘‘
    soup=BeautifulSoup(input,"html.parser")
    if cla==None:
        if tag == None:
            return soup.find_all(‘div‘)
        else:
            return soup.find_all(tag)
    else:
        if tag == None:
            return soup.find_all(‘div‘,class_=cla)
        else:
            return soup.find_all(tag,class_=cla)
req_header = {
‘Host‘:"blog.csdn.net",
‘User-Agent‘:"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
‘Accept‘:"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
‘Accept-Language‘:"zh-CN,zh;q=0.8",
‘Connection‘:"keep-alive",
"Cache-Control":"max-age=0",
"Referer":"http://blog.csdn.net"}
blog_art=[]
i=1
#该循环是获取最大页面数，并将获取的页面放入一个list中while True:
    url="http://blog.csdn.net/zhaoyl03/article/list/"
    req=urllib2.Request(url+str(i),None,req_header)
    result = urllib2.urlopen(req,None)
    artcle_num=query_item(result.read(),‘div‘,‘list_item article_item‘)
    if len(artcle_num)<15:
        for x in artcle_num:
            blog_art.append(x)
        breakelse:
        i+=1
        for x in artcle_num:
            blog_art.append(x)
#现在得到blog的有效页数 i 和所有的博文 blog_art
host_url=‘http://blog.csdn.net‘
query_result={}
for x in blog_art:
    for y in x.find(‘span‘,‘link_title‘):
        #得到所有博文的title
        query_result[str(y.get_text())]=str(host_url+y.get(‘href‘))
‘‘‘
query_result是标题:url的字典
下面根据这个字典将每个博文的内容爬出来 保存在本地
‘‘‘
a=1
time=‘‘for x,y in query_result.items():
    temp_req=urllib2.Request(y,None,req_header)
    temp_result=urllib2.urlopen(temp_req,None)

    for i in query_item(temp_result,‘div‘,‘article_content‘):
        # f=open(‘d:\\csdn\\%s.html‘ % str(x.strip()),‘w‘)#有问题 无法将博文标题作为文件名写入
        f=open(‘d:\\csdn\\%s.html‘% a,‘w‘)
        f.write(‘‘‘<head>
            <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
            </head>‘‘‘)
        f.write(str(x))
        for j in i:
            f.writelines(str(j))
        f.close() 
        a+=1

下面是抓取的结果

技术分享

原文：http://www.cnblogs.com/csy2994/p/4738946.html

内容总结

以上是互联网集市为您收集整理的python 爬虫学习笔记2全部内容，希望文章能够帮你解决python 爬虫学习笔记2所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1079533.html

来源：【匿名】

【上一篇】WebMagic开源垂直爬虫介绍【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python 爬虫学习笔记2】教程文章相关的互联网学习教程文章

有时候在我们设计利用requests抓取网页数据的时候，会发现所获得的结果可能与浏览器显示给我们的不一样：比如说有的信息我们通过浏览器可以显示，但一旦用requests却得不到想要的结果。这种现象是因为我们通过requests获得的都是HTML源文档，而浏览器中见到的页面数据都是经过JavaScript处理的，而这些处理的数据可能是通过Ajax加载、本身包含于HTML中或是经过JavaScript自动生成。由Web发展趋势来看，越来越多的网页都通过Ajax加载...

吴裕雄--python学习笔记：爬虫包的更换【代码】

python 3.x报错：No module named ‘cookielib‘或No module named ‘urllib2‘1. ModuleNotFoundError: No module named ‘cookielib‘ Python3中，import cookielib改成 import http.cookiejar,然后方法里cookielib也改成 http.cookiejar。2. ModuleNotFoundError: No module named ‘urllib2‘Python 3中urllib2用urllib.request替代。在Python官方文档里面已有说明：Note:The urllib2 module has been split across se...

python爬虫学习笔记(八)-数据提取之Beautiful Soup的使用【代码】

1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需...

Python爬虫学习笔记——豆瓣登陆(一)【代码】

#-*- coding:utf-8 -*-import requests from bs4 import BeautifulSoup import html5lib import re import urllib url1 = ‘http://accounts.douban.com/login‘ url2 = ‘http://www.douban.com/people/*****/contacts‘ formdata={ "redir":"http://www.douban.com/", "form_email":"************", "form_password":"*******", #‘captcha-solution‘:‘blood‘, #‘captcha-id‘:‘cRPGXEYPFHjkfv3u7K4Pm0v1:en‘,"login":"登录...

php爬虫学习笔记1 PHP Simple HTML DOM Parser【图】

常用爬虫。0.Snoopy是什么? （下载snoopy） Snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。 Snoopy的一些特点: * 方便抓取网页的内容 * 方便抓取网页的文本内容 (去除HTML标签) * 方便抓取网页的链接 * 支持代理主机 * 支持基本的用户名/密码验证 * 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) * 支持浏览器转向，并能控制转向深度 * 能把网页中的链接扩展成高...

python 爬虫学习笔记2【代码】【图】

接着上一篇笔记这次将该blog的所有文章都下载下来思路为根据dict中的url去解析网页并将其中的博文部分获取并下载下来#coding=utf-8import urllib2 import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding(‘utf-8‘) def query_item(input,tag=None,cla=None):‘‘‘获取对应url中 div标签 class的对象返回的是set对象p‘‘‘soup=BeautifulSoup(input,"html.parser")if cla==None:if tag =...

node.js学习笔记之koa框架和简单爬虫练习【图】

Koa -- 基于 Node.js 平台的下一代 web 开发框架koa是由 Express 原班人马打造的，致力于成为一个更小、更富有表现力、更健壮的 Web 框架。使用 koa 编写 web 应用，可以免除重复繁琐的回调函数嵌套，并极大地提升错误处理的效率。koa 不在内核方法中绑定任何中间件，它仅仅提供了一个轻量优雅的函数库，使得编写 Web 应用变得得心应手。开发思路和express差不多，最大的特点就是可以避免异步嵌套。koa2利用ES7的async/await特性...

Python的Scrapy爬虫框架简单学习笔记

一、简单配置，获取单个网页上的内容。（1）创建scrapy项目scrapy startproject getblog （2）编辑 items.py# -*- coding: utf-8 -*-# Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.htmlfrom scrapy.item import Item, Fieldclass BlogItem(Item):title = Field()desc = Field()（3）在 spiders 文件夹下，创建 blog_spider.py 需要熟悉下xpath选择...

python爬虫学习笔记.urllib的使用【代码】

这里写目录标题一，urllib四大模块 1，request：基本的HTTP请求模块，可以用来模拟发送请求。 2，error：异常处理模块。 3，parse：工具模块，提供URL处理方法。 4，robotparse：识别网站的robot.txt文件，判断该网站是否可以爬。二，发送请求 Ⅰ：urlopen的使用作用抓取网页源代码。使用方法 import urllib.requestresponse = urllib.request.urlopen('https://www.baidu.com/')print(response.read().decode('utf-8'))程序将...

Python爬虫学习笔记 (14) [中级] 动态网页处理利器 selenium + 豆瓣网电影清单 (监控下拉&点击状态)【代码】

更新日期: 2021.04.09 本节学习内容：上一节练习了获取当当网图书清单，页面上没有判停的标志，使用 selenium不断的下拉滚动条继续加载，拉了 97次，终于到底了~ 本节操练下使用 selenium 的另一种场景，即页面下方有个按键，比如 “点击下载更多”，不断的下拉滚动条，然后点击这个按键，直到这个按键不再出现了（拉到底了），或者，已经拉到了我预定的次数（获得了足够的信息），不需要继续加载了。目录 1. 采集豆瓣网电影清单...

Python爬虫学习笔记-第三十一+三十二课(fiddler工具的使用)【代码】【图】

Fiddler工具的使用 1. Fiddler抓包工具简介2. Fiddler的安装与配置2.1 fiddler的安装2.1 fiddler的配置 3. Fiddler配置移动端4. 利用Fiddler工具爬取移动端数据4.1 利用fiddler寻找数据接口4.2 代码编写1. Fiddler抓包工具简介什么是fiddler：它是一个http协议调试代理工具，记录并检查你的电脑和互联网之间的通讯。官网链接：https://www.telerik.com/fiddler fiddler的优点：使用简单；支持众多的http调试任务；支持大多数...

Python爬虫学习笔记(七)【代码】【图】

数据存储： json： XML： json是轻量级的数据交互格式 HTML：给用户看的，展示数据的数据交互格式：简单理解就是一个字点或者list 书写格式：不能写注释 key：Value（必须都是双引号）末尾不能写逗号整个文件有且仅有一个{ }或[ ]模块操作：字符串： loads()：代码：# coding=gbk import json# 1.字符串和dic list转换 # 字符串(json) --> dict list data = [{"name":"张三", "age":20}, {"name":"李四", "age":18}] list_d...

Python爬虫学习笔记(五)【代码】【图】

数据分析：正则表达式： Test1（正则表达式 - 字符串拆分）：代码：import re# 拆分字符串 one = asdfsdfas # 标准是以s为拆分 pattern = re.compile(s) result = pattern.split(one) print(result)返回：[a, df, dfa, ]Test2（正则表达式 - 匹配中文）：代码1： # 匹配中文 two = <h2 tid="tid-YkerKe" id="hid-Htc8Nb">Test4（正则表达式 - 纯数字的正则）：</h2># python中匹配中间 [a-z] unicode的范围 pattern = re.compil...

学习笔记（44):150讲轻松搞定Python网络爬虫-使用Thread类创建多线程

立即学习:https://edu.csdn.net/course/play/24756/284627?utm_source=blogtoedu 1.查看当前线程的信息： the_thread=threading.current_thread() print(the_thread) print(the_thread.name) #查看名字 #给线程改名字：在多线程函数下， th1=threading.Thread(target=线程函数名，name=" ") 2.threading.enumerate()函数当查看前的线程：多线程函数下： print(threading.enumerate())

Python网络爬虫学习笔记（四）解析库的使用【代码】【图】

解析库的使用使用正则表达式，比较烦琐，而且万一有地方写错了，可能导致匹配失败。对于网页的节点来说，有 id 、 class 或其他属性。而且节点之间还有层次关系，在网页中可以通过 XPath 或 css 选择器来定位一个或多个节点。利用 XPath 或 css选择器来提取某个节点，然后再调用相应方法获取它的正文内容或者属性。在 Python 中，有 lxml 、Beautiful Soup 、 pyquery 等解析库实现这个操作。使用 XPath XPath ，全称 XML ...

学习笔记 - 相关标签

学习笔记模板

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python 爬虫学习笔记2

python 爬虫学习笔记2

内容导读

内容图文

内容总结

内容备注

内容手机端

【python 爬虫学习笔记2】教程文章相关的互联网学习教程文章

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

吴裕雄--python学习笔记：爬虫包的更换【代码】

python爬虫学习笔记(八)-数据提取之Beautiful Soup的使用【代码】

Python爬虫学习笔记——豆瓣登陆(一)【代码】

php爬虫学习笔记1 PHP Simple HTML DOM Parser【图】

python 爬虫学习笔记2【代码】【图】

node.js学习笔记之koa框架和简单爬虫练习【图】

Python的Scrapy爬虫框架简单学习笔记

python爬虫学习笔记.urllib的使用【代码】

Python爬虫学习笔记 (14) [中级] 动态网页处理利器 selenium + 豆瓣网电影清单 (监控下拉&点击状态)【代码】

Python爬虫学习笔记-第三十一+三十二课(fiddler工具的使用)【代码】【图】

Python爬虫学习笔记(七)【代码】【图】

Python爬虫学习笔记(五)【代码】【图】

学习笔记（44):150讲轻松搞定Python网络爬虫-使用Thread类创建多线程

Python网络爬虫学习笔记（四）解析库的使用【代码】【图】

学习笔记 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程