python之爬虫入门一

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python之爬虫入门一，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3132字，纯文字阅读大概需要5分钟。

内容图文

文章目录

1.基础概念
2.Request模块

1.基础概念

什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫的价值

实际运用就业

爬虫在使用场景中的分类

通用爬虫：抓取系统重要组成部分，抓取的是一整张页面数据
聚焦爬虫：建立在通用爬虫基础上。抓取的是页面中特定的局部内容
增量式爬虫：检测网站中数据更新的情况。只会抓取网站中更新出来的数据

爬虫的矛与盾

反爬机制：门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取
反反爬机制：爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据

robots.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬虫爬取

http协议

概念

服务器和客户端进行数据交互的一种形式

常用的请求头信息

User-Agent:请求载体的身份标识
Connection：请求完毕后，断开连接还是保持连接 close,keep alive两种

常见的响应头信息

Content-Type：服务器响应客户端的数据类型

HTTPS协议

安全的超文本传输协议（传输和交互过程中数据进行加密）

加密方式

对称密钥加密
非对称密钥加密
证书密钥加密

2.Request模块

2.1概念

Python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高

2.2作用

模拟浏览器发请求

2.3使用方法（request模块的编码流程）

指定URL
发起请求
获取响应数据
持久化存储
样例展示爬取

#爬取百度首页
import requests
if __name__=="__main__":
    #指定url
    url='https://www.sogou.com/'
    # 发起get请求 get方法会返回一个对象
    req = requests.get(url=url)
    # 获取响应数据 text返回的是字符串形式1的响应数据
    page_text = req.text
    print(page_text)
    with open('./sogou.html','w',encoding='utf-8') as fp :
        fp.write(page_text)
    print('爬虫结束')

UA监测

门户网站的服务器会监测对应请求载体的身份标识，如果监测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求，但是，如果监测到的请求载体的身份标识不是基于某一款浏览器，说明该请求为不正常的请求（爬虫），则服务器端就很有可能拒绝该次请求

UA伪装

让爬虫对应的请求载体身份标识伪装成某一款浏览器
User-Agent：请求载体的身份标识
样例展示

import requests
kw=input('请输入你要查询的信息')
param={
    'query':kw
}
headers={
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}
reponse=requests.get(url='https://www.sogou.com/web',params=param,headers=headers)
page=reponse.text
filename='./'+kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page)
print('保存成功')

百度翻译

由于在运用百度翻译时输入单词后就会有响应是翻译显示，属于ajax同步请求，打开控制台找sug找到响应的ip地址和其他的配置
python之爬虫入门一 - 文章图片

python之爬虫入门一 - 文章图片
代码展示

import requests
#指定url
post_url='https://fanyi.baidu.com/sug'
word=input('请输入要翻译的单词')
#post请求参数处理（同get请求一样)
data={
    'kw':word
}
# 进行UA伪装
headers={
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}
# 发送请求
response=requests.post(url=post_url,data=data,headers=headers)
# 获取响应数据：json（）方法返回的是obj（如果缺人响应数据是json类型的，才可以使用json）
ans=response.json();
print(ans)

内容总结

以上是互联网集市为您收集整理的python之爬虫入门一全部内容，希望文章能够帮你解决python之爬虫入门一所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/596704.html

来源：【匿名】

【上一篇】python-爬虫-高德地图，地区天气爬取【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python之爬虫入门一】教程文章相关的互联网学习教程文章

如果学会了python的基本语法，我认为入门爬虫是很容易的。我写的第一个爬虫大概只需要10分钟，自学的 scrapyd , 看官方文档花了20分钟，因为我英文不是很好，很多单词需要搜索一下。(scrapy 并不是入门必须的）再接触到了 requests , lxml ，配合基本库 urllib, urllib2 就几乎无所不能了。后来有人推荐我用 BeatufulSoup 之类的库，但其实原理都差不多。一、入门爬虫的干货 0. 爬虫的基本思路 a. 通过URL或者文件获取网页， b. ...

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器【图】

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器广东职业技术学院欧浩源 2017-10-211、引言目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。不过，在本...

Puppeteer之爬虫入门【代码】【图】

译者按：本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据，特别是用谷歌开发者工具获取元素选择器值得学习。原文: A Guide to Automating & Scraping the Web with JavaScript (Chrome + Puppeteer + Node JS)译者: Fundebug为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有，翻译仅用于学习。我们将会学到什么？在这篇文章，你讲会学到如何使用JavaScript自动化抓取网页里面感兴趣的内容。我们将会使用...

爬虫简单入门-接口寻找调用【代码】

重新开始学习python，初心不变，抓取马刺队比赛数据。网易NBA的比赛数据写死在页面当中，且数据单一，于是改为解析NBA中国的网页。首先找到马刺队数据页面（http://china.nba.com/teams/stats/#!/spurs），按下F12，从众多运行文件中，可以找到马刺队数据是通过调用API接口更新的，接口调用（"http://china.nba.com/static/data/team/stats_spurs.json"），只管复制下来，后期放入python代码中。因为需要访问链接，需要导入链接访问...

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用【图】

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用广东职业技术学院欧浩源 2017-10-201、引言网络爬虫最终的目的就是过滤选取网络信息，因此最重要的就是解析器了，其性能的优劣直接决定这网络爬虫的速度和效率。BeautifulSoup可以通过定位HTML件中的标签来格式化和组织复杂的网络信息，尝试化平淡为神奇，用简单易用的Python对象为我们展现XML的信息结构，它会帮你节省数小时甚至数天的工作时间。2、什么是Beau...

快速入门带你1小时了解Python 爬虫【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云，作者：CSDN技术头条前言随着网络技术的发展，数据越来越变的值钱，诸多公司都在探究如何获取更多更有用的数据。万维网是大量信息的载体，如何有效提取这些有效且公开的数据并利用这些信息变成了一个巨大的挑战。从而爬虫工程师、数据分析师、大数据工程师的岗位也越来越受欢迎。爬虫则是...

Tor网络突破IP封锁，爬虫好搭档【入门手册】【代码】【图】

本文地址：http://www.cnblogs.com/likeli/p/5719230.html前言　　本文不提供任何搭梯子之类的内容，我在这里仅仅讨论网络爬虫遇到的IP封杀，然后使用Tor如何对抗这种封杀。作为一种技术上的研究讨论。场景　　我们编写的网络爬虫全网采集的时候总会有一些网站有意识的保护自己的网站内容，以防止网络爬虫的抓取。常见的方式就是通过身份验证的方式来进行人机识别。也就是在登陆（查询）的入口增加或者加固防御。这些防御有那些呢...

【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider【图】

【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider广东职业技术学院欧浩源1、引言网络爬虫可以完成传统搜索引擎不能做的事情，利用爬虫程序在网络上取得数据，经过数据清洗和分析，使非结构化的数据转换成结构化的数据，其结果可以存储到数据库，也可以进行数据的可视化，还能根据分析数据的基础获得想要的结果。除了利用urllib.request和正则表达式或者利用Scrapy框架实现网络爬虫之外，利用Requests和Beautifu...

简单爬虫入门

#!/usr/bin/python3#!-*-coding:utf-8-*-#导入库#import requestsfrom bs4 import BeautifulSoup#模拟浏览器访问#headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}#GET网页以及解析打印#Response = requests.get('http://www.dajiqq.com/',headers=headers)soup = BeautifulSoup(res.text,'html.parser')print(soup.prettify...

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

相关教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫工具要求：教程中主要使用到了 1、神箭手云爬虫框架 ?这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

通过beautifulsoup对json爬取的文件进行元素审查，获取是否含有p标签# -*- coding:utf-8 -*-from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup#通过beautifulsoup解析文档def bs4analysis(html_doc):soup = BeautifulSoup(html_doc,"lxml")if soup.find_all(‘a‘):print soup.a.stringprint soup.a.nextSiblingelif html_doc.find(‘#‘)>=0:print‘有主题‘p=re.split(...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

从零起步系统入门Python爬虫工程师

第1章从零开始系统入门python爬虫工程师-课程导学（提醒：购买后记得加入课程群）课程社群技术专题讨论会第一期于3月30号晚上8点开始9点结束，bobby老师和你不见不散！这样的技术专题讨论会有很多期，大家购买完尽快加群哦。第2章开发环境搭建视频+文档教程本章节主要采用视频+文档的方式详细讲解如何在windows/linux/mac下安装和配置python、pycharm、mysql、navicat和虚拟环境。（学习的过程中遇到问题卡壳，可以及时在问答...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / python之 爬虫入门一

python之 爬虫入门一

内容导读

内容图文

文章目录

1.基础概念

什么是爬虫

爬虫的价值

爬虫在使用场景中的分类

爬虫的矛与盾

robots.txt协议

http协议

概念

常用的请求头信息

常见的响应头信息

HTTPS协议

加密方式

2.Request模块

2.1概念

2.2作用

2.3使用方法（request模块的编码流程）

UA监测

UA伪装

百度翻译

内容总结

内容备注

内容手机端

【python之 爬虫入门一】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / python之爬虫入门一

python之爬虫入门一

【python之爬虫入门一】教程文章相关的互联网学习教程文章