首页 / 爬虫 / 爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3064字，纯文字阅读大概需要5分钟。

内容图文

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。

适合人群：

Python零基础、对爬虫数据采集感兴趣的同学！

环境介绍：

python 3.6
pycharm
requests
re
json

爬虫的一般思路

1、确定爬取的url路径，headers参数

2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据

3、解析数据 -- re模块：提供全部的正则表达式功能

4、保存数据 -- 保存json格式的数据

1、确定爬取的url路径，headers参数

    base_url = ‘https://www.guokr.com/ask/highlight/?page={}‘.format(str(page))
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36‘}

2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据

   response = requests.get(base_url, headers=headers)
    data = response.text
    # print(data)

3、解析数据 -- re模块：提供全部的正则表达式功能

编译正则表达式预编译的代码对象比直接使用字符串要快，因为解释器在执行字符串形式的代码前都推荐大家把字符串编译成代码对象

pattern = re.compile(‘<h2><a target="_blank" href="(.*?)">(.*?)</a></h2>‘, re.S)
    pattern_list = pattern.findall(data)  # -->list# print(pattern_list)# json [{[]}]{}# 构建json数据格式for i in pattern_list:
        data_dict = {}
        data_dict[‘title‘] = i[1]
        data_dict[‘href‘] = i[0]
        data_list.append(data_dict)
    # 转换成json格式# json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False：
    json_data_list = json.dumps(data_list, ensure_ascii=False)
    # print(json_data_list)    
with open("guoke02.json", ‘w‘, encoding=‘utf-8‘) as f:
    f.write(json_data_list)

4、保存json格式的文件

每页20条数据，共100页，2000条数据~

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

完整代码如下：

            #
             requests
            
#
             re
            
#
             json
            
#
             爬虫的一般思路
            
#
             1、确定爬取的url路径，headers参数
            
#
             2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据
            
#
             3、解析数据 -- re模块：提供全部的正则表达式功能
            
#
             4、保存数据 -- 保存json格式的数据
            import requests  # pip install requestsimport re
import json
data_list = []
for page in range(1, 101):
    print("====正在爬取第{}业数据====\n".format(page))
    # 1、确定爬取的url路径，headers参数
    base_url = ‘https://www.guokr.com/ask/highlight/?page={}‘.format(str(page))
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36‘}
    # 2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据
    response = requests.get(base_url, headers=headers)
    data = response.text
    # print(data)# 3、解析数据 -- re模块：提供全部的正则表达式功能# <h2><a target="_blank" href="https://www.guokr.com/question/669761/">印度人把男人的生殖器叫林伽，把女人的生殖器叫瑜尼，林伽和瑜尼的交合，便是瑜伽。这是真还是假的</a></h2># 3、1 编译正则表达式  预编译的代码对象比直接使用字符串要快，因为解释器在执行字符串形式的代码前都推荐大家把字符串编译成代码对象
    pattern = re.compile(‘<h2><a target="_blank" href="(.*?)">(.*?)</a></h2>‘, re.S)
    pattern_list = pattern.findall(data)  # -->list# print(pattern_list)# json [{[]}]{}# 构建json数据格式for i in pattern_list:
        data_dict = {}
        data_dict[‘title‘] = i[1]
        data_dict[‘href‘] = i[0]
        data_list.append(data_dict)
    # 转换成json格式# json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False：
    json_data_list = json.dumps(data_list, ensure_ascii=False)
    # print(json_data_list)# 保存json格式的文件
    with open("guoke02.json", ‘w‘, encoding=‘utf-8‘) as f:
        f.write(json_data_list)

原文：https://www.cnblogs.com/python0921/p/12836359.html

内容总结

以上是互联网集市为您收集整理的爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！全部内容，希望文章能够帮你解决爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1096944.html

来源：【匿名】

【上一篇】四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！】教程文章相关的互联网学习教程文章

网络爬虫采集数据几个问题

最近在做网络爬虫抓取数据，遇到几个重要问题，记录下来，以免忘记。目前用的是第三方开源爬虫框架webmagic，所以暂时记录下来的不是爬虫实现和结构上的问题，而主要是在此框架上的逻辑开发问题。1.要采集的数据在不同的页面上比如，采集网站http://down.7po.com/上的应用，在应用列表页面有应用的id等信息，而此应用的详细页面没有列表页面的这些字段信息，那么就要从列表页面和详细页面中取出字段然后再合成一个应用的整...

【网络爬虫】微信公众号采集【代码】

# WeixinCrawler根据搜狗搜索关键词采集微信公众号和相应推文采集策略：深度搜索采集核心代码：package main;import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.net.MalformedURLException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Random; import java.util.Set;import org.apache.log4j.Logger; i...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

QueryList 是什么?QueryList是一套用于内容采集的PHP工具，它使用更加现代化的开发思想，语法简洁、优雅，可扩展性强。相比传统的使用晦涩的正则表达式来做采集，QueryList使用了更加强大而优雅的CSS选择器来做采集，大大降低了PHP做采集的门槛，同时也让采集代码易读易维护，让你从此告别晦涩难懂且不易维护的正则表达式。 QueryList 提供的一整套内容采集解决方案● DOM内容选择：CSS选择器● HTTP客户端：GuzzleHTTP● 内容过滤...

Python简单两步实现天气爬虫采集器

说道爬虫大家或许感觉非常神秘，其实它没有我们想象的那么神奇（当然，google和baidu的爬虫是一场复杂和强大的，它的强大不是爬虫本身强大，而是后台的数据处理和数据挖掘算法非常强大），今天我们就来揭开它神秘的面纱。呵呵，简单两步就可以实现一个网页天气爬虫程序。。。爬虫简单说来包括两个部分：1.获得网页文本信息。2.数据分析，获取其中我们想要的数据。1、获得网页文本信息。python在获取html方面十分方便，有了urllib库...

python网络爬虫采集联想词示例

python爬虫_采集联想词代码代码如下:#coding:utf-8import urllib2import urllibimport reimport timefrom random import choice#特别提示，下面这个list中的代理ip可能失效，请换上有效的代理ipiplist = [27.24.158.153:81,46.209.70.74:8080,60.29.255.88:8888] list1 = ["集团","科技"]for item in list1: ip= choice(iplist) gjc = urllib.quote(item) url = "http://sug.so.360.cn/suggest/word?callback=suggest_so...

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

1.在Scrapy工程下新建“middlewares.py”# Importing base64 library because well need it ONLY in case if the proxy we are going to use requires authentication import base64# Start your middleware class class ProxyMiddleware(object):# overwrite process requestdef process_request(self, request, spider):# Set the location of the proxyrequest.meta[proxy] = "http://YOUR_PROXY_IP:PORT"# Use the following l...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。　　1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。代码如下: def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。　　2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正...

Python制作爬虫采集小说

开发工具：python3.4 操作系统：win8 主要功能：去指定小说网页爬小说目录，按章节保存到本地，并将爬过的网页保存到本地配置文件。被爬网站：http://www.cishuge.com/ 小说名称：灵棺夜行代码出处：本人亲自码的import urllib.request import http.cookiejarimport socket import time import retimeout = 20 socket.setdefaulttimeout(timeout)sleep_download_time = 10 time.sleep(sleep_download_time)def makeMyOpener(head...

社会化海量数据采集爬虫框架搭建【图】

随着BIGDATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下...

python爬虫：搜狗微信公众号文章信息的采集（https://weixin.sogou.com/），保存csv文件【代码】【图】

import requests from requests.exceptions import RequestException from lxml import etree import csv import re import time from urllib import parse import timedef get_page(url):"""获取网页的源代码:param url::return:"""try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',}response = requests.get(url, headers=headers)if res...

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集)【代码】【图】

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集) 小程序爬虫接单、app爬虫接单、网页爬虫接单、接口定制、网站开发、小程序开发> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流，请勿用于非法用途直接上代码 # -*- coding:utf-8 -*- import requests import datetime import time import json import os import xlrd import xlwt from xlutils.copy import copy'''功能点：1、美团优选商...

Python爬虫：网络爬虫实现豆瓣电影采集，想看啥自己挑选【代码】【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来自腾讯云作者：Python爬虫与数据挖掘想要学习Python？有问题得不到第一时间解决？来看看这里“1039649593”满足你的需求，资料都已经上传至文件中，可以自行下载！还有海量最新2020python学习资料。点击查看一、项目背景豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想...

首页 / 爬虫 / 爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！

内容导读

内容图文

内容总结

内容备注

内容手机端

【爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！】教程文章相关的互联网学习教程文章

网络爬虫采集数据几个问题

【网络爬虫】微信公众号采集【代码】

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

Python简单两步实现天气爬虫采集器

python网络爬虫采集联想词示例

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

Python天气预报采集器实现代码(网页爬虫)

Python制作爬虫采集小说

社会化海量数据采集爬虫框架搭建【图】

python爬虫：搜狗微信公众号文章信息的采集（https://weixin.sogou.com/），保存csv文件【代码】【图】

Python爬虫系列之美团优选商家端商品自动化管理(商品发布、商品排期、订单采集)【代码】【图】

Python爬虫：网络爬虫实现豆瓣电影采集，想看啥自己挑选【代码】【图】

采集 - 相关标签

基础 - 相关标签

数据 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程