首页 / PYTHON / 路飞学城-Python爬虫实战密训-第1章

路飞学城-Python爬虫实战密训-第1章

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了路飞学城-Python爬虫实战密训-第1章，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3821字，纯文字阅读大概需要6分钟。

内容图文

这是我第一篇博客

在前几天，参加了路飞学城的Python爬虫培训，结束了第一章节的课程，有些想法和心得在这里记录下来。

requests模块有常用的get,post,和put方法。

requests模块的requeset函数

requests.request()

- method：提交方式，post，get，delete， put， head， patch， options
- url：提交地址
- params：在url中传递参数，GET params = {k:v}
- data: 在请求体里传递参数用于post请求
- json: 在请求体里传递参数，并在请求头中设置content-type： application/json
- headers：在请求头中添加数据
- cookies: 网站cookies 在请求头中
- auth : 认证使用在请求头中加入用户名密码
- timeout ：超时时间
- allow_redirects: 是否允许重定向 bool
- proxies: 代理
- stream: 流,bool 用于下载文件
ret = request.get(‘http://127.0.0.1:6666/me/‘, steam=True)
for i in ret.iter.content():
　　print(i)
- cert: 证书指定https SSL证书文件
- verify = False https忽略证书存在

而BeautifulSoup模块自己总结了一点

                  1
                from bs4 import BeautifulSoup
  2from bs4.element import Tag
  3  4 html_doc = """  5<html><head><title>The Dormouse‘s story</title></head>
  6<body>
  7    <div class="title">
  8        <b>The Dormouse‘s story总共</b>
  9        <h1>f</h1>
 10    </div>
 11 12</body>
 13</html>
 14""" 15 soup = BeautifulSoup(html_doc, "lxml")
 16 title = soup.find(name="body")
 17 Tag = Tag(name="a", attrs={"id": "cc"})
 18 Tag.string = "new" 19# 筛选标签 20# children 后代标签 21# print(list(title.children)) 22# [‘\n‘, <b>The Dormouse‘<a>test</a>s story总共</b>, ‘\n‘, <h1>f</h1>, ‘\n‘] 23 24# descendants 后代所有标签 print(list(title.descendants)) [‘\n‘, <b>The Dormouse‘<a>test</a>s story总共</b>, "The Dormouse‘", 25#  <a>test</a>, ‘test‘, ‘s story总共‘, ‘\n‘, <h1>f</h1>, ‘f‘, ‘\n‘] 26 27# clear 删除所有标签，留下自己 28# decompose 删除所有标签，自己也不留 29# extract 删除所有标签，获取被删除的 30 31# decode 转换为字符串，含当前标签 32# print(title.decode) 33# encode_contents 转换为字符串，不含当前标签 34# print(title.decode.contents) 35 36# find 获取匹配的第一个标签 可加参数 recursive=True 是否递归找子孙 37# print(title) 38# find_all 获取匹配的所有标签，可加参数limit 取几个 name就是可以找到的 39# has_attr 检查是否有这个属性 40# v = title.has_attr("id") 41# print(v) 42# get_text 获取标签内部文本内容 43# v = title.get_text("h1") 44# print(v) 45# index 检查标签在某标签的索引位置 46# is_empty_element 是否为空标签或者是单标签 47# 获取当前的关联标签 48 49# 早上填坑 50# soup.next 51# soup.next_element 52# soup.next_elements 53# soup.next_sibling 54# soup.next_siblings 55# tag.previous 56# tag.previous_element 57# tag.previous_elements 58# tag.previous_sibling 59# tag.previous_siblings 60# tag.parent 61# tag.parents 62 63# 获取某标签的关联标签 64# tag.find_next(...) 65# tag.find_all_next(...) 66# tag.find_next_sibling(...) 67# tag.find_next_siblings(...) 68# tag.find_previous(...) 69# tag.find_all_previous(...) 70# tag.find_previous_sibling(...) 71# tag.find_previous_siblings(...) 72# tag.find_parent(...) 73# tag.find_parents(...) 74# 参数同find_all 75 76# select 77# title.String可以改内容，文本替换 78# title.stripped_strings #递归获取所有文本 79# v = title.stripped_strings 80# print(list(v)) 81 82# append 追加一个标签,相当于剪切 83print(title)
 84print("-" * 10)
 85title.append(Tag)
 86print(title)
 87print("-" * 10)
 88# Tag = Tag(name="a",attrs={"id":"cc"}) 89# Tag.string="new" 90 91# insert在当前标签内部指定位置插入一个标签 92# from bs4.element import Tag 93# obj = Tag(name=‘i‘, attrs={‘id‘: ‘it‘}) 94# obj.string = ‘我是一个新来的‘ 95# tag = soup.find(‘body‘) 96# tag.insert(2, obj) 97# print(soup) 98 99# insert_after,insert_before 在当前标签后面或前面插入100# from bs4.element import Tag101# obj = Tag(name=‘i‘, attrs={‘id‘: ‘it‘})102# obj.string = ‘我是一个新来的‘103# tag = soup.find(‘body‘)104# # tag.insert_before(obj)105# tag.insert_after(obj)106# print(soup)

View Code

基于一开始学习的Requests和BeautifulSoup，在学习这门课程之前，已经了解过这两个模块，所以听起来并不费力，不过对于爬虫的这方面的思路还不是特别明确，不知道的先做什么后做什么。

不过好在现在明确了。

对于登录我认为有个明确的步骤

技术分享图片

find和find_all的区别是后者返回一个列表

根据需求选择get和post方法的使用，GET的参数是在HTTP 的头部传送的，而Post的数据则是在HTTP 请求的内容里传送

requests模块还有一些不可以忘记的

比如:method，url，params。data，json，headers，cookies，这些都已经记在脑中。

files，auth，timeout等是上传文件，认证和超时，以后会用得上。

原文：https://www.cnblogs.com/Ojia/p/9275162.html

内容总结

以上是互联网集市为您收集整理的路飞学城-Python爬虫实战密训-第1章全部内容，希望文章能够帮你解决路飞学城-Python爬虫实战密训-第1章所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1229117.html

来源：【匿名】

【上一篇】python018 Python3 输入和输出【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【路飞学城-Python爬虫实战密训-第1章】教程文章相关的互联网学习教程文章

路飞学城-Python爬虫实战密训-第1章【代码】【图】

这是我第一篇博客在前几天，参加了路飞学城的Python爬虫培训，结束了第一章节的课程，有些想法和心得在这里记录下来。 requests模块有常用的get,post,和put方法。requests模块的requeset函数requests.request() - method：提交方式，post，get，delete， put， head， patch， options - url：提交地址 - params：在url中传递参数，GET params = {k:v} - data: 在请求体里传递参数用于post请求 ...

【原创】编写多线程Python爬虫来过滤八戒网上的发布任务【代码】

目标：以特定语言技术为关键字，爬取八戒网中网站设计开发栏目下发布的任务相关信息需求：用户通过设置自己感兴趣的关键字或正则表达式，来过滤信息。我自己选择的是通过特定语言技术作为关键字，php、java和python。注意：如果不选用正则表达式，就会把javascript也爬进来，那前端的信息就比较多了。为什么要使用多线程：网络烂，读网页时很容易阻塞，这个时候后面的工作都得等；在保存页面时，有对硬盘I/O的需求，如果阻塞了也...

【Python】爬虫与反爬虫大战【图】

爬虫与发爬虫的厮杀，一方为了拿到数据，一方为了防止爬虫拿到数据，谁是最后的赢家？重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫：使用技术手段防止爬虫程序爬取数据误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好，通常都是禁止某i...

Python爬虫开发

1. 语法入门Python教程 2. 爬虫学习系列教程1）宁哥的小站https://github.com/lining0806/PythonSpiderNotes2）Python爬虫开发3）Python爬虫学习系列教程原文：http://www.cnblogs.com/yeahwell/p/6780096.html

Python--爬虫之(斗图啦网站)图片爬取【代码】【图】

学习重点:　　一、主要的安装包，requests、BeautifulSoup4　　二、首先爬取每页的网址　　三、再爬取每页的全部图片　　四、下载图片和设置保存路径和图片名字　　五、整合代码1、主要的安装包requests、BeautifulSoup4　1）用来请求网络数据requests　　2）用来解析html文档，然后过滤我们需要的数据BeautifulSoup4　　3）引用安装包有两种方法，可以全部导入进来，也可以只导入你需要的部分进来import requestsFrom bs4 import ...

Python爬虫：认识urllib/urllib2以及requests【代码】

首先说明一下我的爬虫环境是基于py2.x的，为什么用这个版本呢，因为py2.x的版本支持的多，而且一般会使用py2.x环境，基本在py3.x也没有太大问题，好了，进入正题！ urllib 与 urllib2urllib与urllib2是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. 构建一个请求与响应模型import urllib2strUrl = "http://www.baidu.com" response = urllib2.urlopen(strUrl) print response.read()得到： <div ><b>网页</b><a href...

Python 爬虫常用模块【代码】

1、fake_useragentpip install fake_useragent 2、图展示pip install pyechartspip install pyecharts-snapshot 原文：https://www.cnblogs.com/cbugs/p/9803203.html

Python爬虫：爬虫技巧总结（八大类）【代码】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云，作者：小小科( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 )1、基本抓取网页get方法import urllib2 url "http://www.baidu.com" respons = urllib2.urlopen(url) print response.read() po...

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

python 爬虫数据准换时间格式【代码】

1 timeStamp = 1381419600 2 dateArray = datetime.datetime.utcfromtimestamp(timeStamp) 3 otherStyleTime = dateArray.strftime("%Y--%m--%d %H:%M:%S") 4print otherStyleTime # 2013--10--10 15:40:005 dateArray = datetime.datetime.utcfromtimestamp(timeStamp) 6 otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S") 原文：https://www.cnblogs.com/duanlinxiao/p/9830236.html

python 爬虫知乎

人生苦短，唯有python是不是代码写多了自己就熟练了呢？人人网爬虫模板，具体操作以后有机会再添加吧！#coding: utf-8 import urllib2 import urllib import cookielib import re def ZhihuBrower(url,user,password):#登陆页面，可以通过抓包工具分析获得，如fiddler，wiresharklogin_page = "http://www.zhihu.com/login"try:#获得一个cookieJar实例cj = cookielib.CookieJar()#cookieJar作为参数，获得一个opener的实例opener=u...

python爬虫中多线程的使用【代码】

queue介绍queue是python的标准库，俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可在python中，多个线程之间的数据是共享的，多个线程进行数据交换的时候，不能够保证数据的安全性和一致性，所以当多个线程需要进行数据交换的时候，队列就出现了，队列可以完美解决线程间的数据交换，保证线程间数据的安全性和一致性。#多线程实战栗子（糗百） #用一个队列Queue对象， #先产生所有url，put进队列；...

python3 爬虫5--分析Robots协议

1Robots协议Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下robots.txt中内容的示范：User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效Disallow:/ //表示了不允许抓取的目录，/表示不允许抓取所有目录，没有写就代表允许抓取所有的目录Allow:/public/ //表示在排除Disallow中，可以抓取的目录2robotparserobotparse就是用来专门解析robots.txt文件的...

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面【代码】【图】

??鉴于现阶段国内的搜索引擎还用不上Google, 笔者会寻求Bing搜索来代替。在使用Bing的过程中，笔者发现Bing的背景图片真乃良心之作，十分赏心悦目，因此，笔者的脑海中萌生了一个念头：能否自己做个爬虫，可以提取Bing搜索的背景图片并设置为Windows的电脑桌面呢？Bing搜索的页面如下： ??于是在一个风雨交加的下午，笔者开始了自己的探索之旅。当然，过程是曲折的，但笔者尝试着能把它讲得简单点。 ??首先，我们需要借助一些Pytho...

首页 / PYTHON / 路飞学城-Python爬虫实战密训-第1章

路飞学城-Python爬虫实战密训-第1章

内容导读

内容图文

内容总结

内容备注

内容手机端

【路飞学城-Python爬虫实战密训-第1章】教程文章相关的互联网学习教程文章

PYTHON爬虫 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程