首页 / 爬虫 / Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5273字，纯文字阅读大概需要8分钟。

内容图文

大家好，我是Python之眼。

最近有朋友们看了《爬取贝壳找房8万+二手房源，看看普通人在北京买房是有多难》之后，想爬取自己所在城市的成交房源数据做做分析之类的。

那么，今天我们就详情介绍下整个数据采集过程吧！

这是准备阶段
一如既往的页面分析
二话不说的数据请求
三复斯言的数据解析
- >>寻找数据字段所在节点
- >>re数据解析
- >>获取全部页面房源数据
四平八稳的数据清洗
- >>数据去重
- >>标题、朝向装修、楼层楼龄及位置信息清洗
- >>最终数据预览

注：贝壳网目前部分城市是不显示成交房源信息的，这里只对公开信息做采集！

这是准备阶段

本次我们的组合拳是基于python的requests+re+pandas。

引入需要用到的库：

import?re
import?requests
import?pandas?as?pd

了解我们需要采集的数据字段：

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片待采集数据字段

一如既往的页面分析

以上海为例，我们打开二手房成交房源页面，网址https://sh.ke.com/chengjiao/pg2/。sh是指上海，大家可以根据自己所在的城市调整。

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片上海二手房

我们进行翻页操作，发现网址只有pg2部分的数字发生变化，而且和页码数是一致的。真好，基于这个简单的规律，我们可以组合出全部100页的url地址。

#?构建全部100个页面url地址
urls?=?[]
for?i?in?range(1,101):
????urls.append(f'https://sh.ke.com/chengjiao/pg{i}/')

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片 urls

二话不说的数据请求

直接请出requests.get(url)方法，由于我们这次采用re正则表达式来解析数据，所以可以将请求的网页数据中的非字符数据去掉备用。

def?get_html(url):
????headers?=?{
????????"Accept-Encoding":?"Gzip",??#?使用gzip压缩传输数据让访问更快
????????"User-Agent":?"Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/83.0.4103.97?Safari/537.36",
????}????
????resp?=?requests.get(url,?headers=?headers)
????html?=?resp.text
????html?=?re.sub('\s',?'',?html)?#?将html文本中非字符数据去掉????????
??????????
????return?html

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片

片段数据预览

三复斯言的数据解析

我们使用的是re正则表达式进行数据解析，关于re正在表达式更详细的用法大家可以参考此前推文《对着爬虫网页HTML学习Python正则表达式re》。

>>寻找数据字段所在节点

由于每页有多个房源信息，我们先找到房源列表所在的节点区域

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片每页房源列表所在节点

接着再看每个房源所在的节点区域，并确定每个数据字段所在的节点（比如标题信息、价格信息等）

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片标题信息

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片总价信息

>>re数据解析

为了更好的进行数据解析，可以先匹配到每页全部房源节点数据，然后再解析出每页全部房源信息列表。

解析获取房源列表数据：

ListContent?=?re.findall(r'<ulclass="listContent"data-query-id="\d+">(.*?)</ul>',?html)[0]
Lists?=?re.findall(r'<divclass="info">(.*?)</li>',?ListContent)

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片房源列表数据预览

解析获取单个房源数据：

根据单个房源信息数据字段，利用正则表达式一一解析，由于并非全部房源均有各个字段信息，所以这里采用findall后并没有直接切片获取字符串，我们放在后续数据清洗阶段处理。

List?=?Lists[3]
def?get_house_info(List):
????house_info?=?{
????????'房源ID'?:?re.findall(r'fb_item_id=(\d+)',List),
????????'标题'?:?re.findall(r'<divclass="title"><ahref=".*?">(.*?)</a>',List),
????????'朝向装修'?:?re.findall(r'<divclass="houseInfo"><spanclass="houseIcon"></span>(.*?)</div>',List),
????????'日期'?:?re.findall(r'<divclass="dealDate">(.*?)</div>',List),
????????'总价'?:?re.findall(r'<divclass="totalPrice"><spanclass=\'number\'>(.*?)</span>',List),
????????'楼层楼龄'?:?re.findall(r'<divclass="positionInfo"><spanclass="positionIcon"></span>(.*?)</div>',List),
????????'单价'?:?re.findall(r'<divclass="unitPrice"><spanclass="number">(.*?)</span>',List),
????????'位置'?:?re.findall(r'<spanclass="dealHouseTxt"><span>(.*?)</span>',List),
????????'挂牌价'?:?re.findall(r'<spanclass="dealCycleTxt"><span>挂牌(.*?)万</span>',List),
????????'成交周期'?:?re.findall(r'<span>成交周期(.*?)天</span>',List),
????}
????
????return?house_info

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片房源数据信息

>>获取全部页面房源数据

直接遍历全部url并解析每一个url下全部房源数据即可，有兴趣的可以采用多进程等加速处理。（需要注意的是，贝壳这边存在ip反爬，如果爬取数据量过大或者频率过高会请求不到想要的数据，可以设置请求间隔或者代理ip的方式处理，本文这里不做详细展开）

house_infos?=?[]
num?=?0
for?url?in?urls:
????html?=?get_html(url)
????ListContent?=?re.findall(r'<ulclass="listContent"data-query-id="\d+">(.*?)</ul>',?html)[0]
????Lists?=?re.findall(r'<divclass="info">(.*?)</li>',?ListContent)
????for?List?in?Lists:
????????num?=?num+1
????????house_info?=?get_house_info(List)
????????house_infos.append(house_info)
????????print(f'\r{num}个成交房源数据已采集...',?end='')
df?=?pd.DataFrame(house_infos)

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片数据预览

四平八稳的数据清洗

由于我们在数据解析的时候得到的每个字段的元素都是元素为1或0个的列表，这里需要解析为字符串，直接用explode()即可。

df?=?df.apply(lambda?x?:?x.explode())

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片初步解析

>>数据去重

按照房源ID进行去重即可。

df.drop_duplicates(subset='房源ID',inplace=True)

>>标题、朝向装修、楼层楼龄及位置信息清洗

标题可以清洗出小区、户型和面积三个字段，我们直接用extract()方法进行处理。

df.标题.str.extract(r'(?P<小区>.+?)(?P<户型>\d+室.*?[厅]*)(?P<面积>\d+\.*\d*?)平米')

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片标题清洗

朝向装修 就是朝向和装修

df.朝向装修.str.extract(r'(?P<朝向>.*)\|(?P<装修>.*)')

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片朝向装修

楼层楼龄 就是楼层（高中低）和建筑年龄

df.楼层楼龄.str.extract(r'(?P<楼层>.*)\(.*?\)(?P<楼龄>\d+)年')

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片楼层楼龄

位置信息 就是地铁线路、地铁及距离地铁距离

df.位置.str.extract(r'(?P<地铁线路>.*线)(?P<地铁>.*?)(?P<距离>\d+)米')

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片位置信息

>> 最终数据预览

df[['房源ID',??'日期',?'小区','户型','面积','总价',?'单价',??'挂牌价',?'成交周期',
???????'朝向',?'装修',?'楼层',?'楼龄',?'地铁线路',?'地铁',?'距离']]

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据 - 文章图片最终数据预览

到这一步，我们就完成了全部数据采集与清洗，接着就可以对这些数据进行数据分析处理和可视化展示了。

关于本文全部代码，申请QQ群：705933274 免费领取

内容总结

以上是互联网集市为您收集整理的Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据全部内容，希望文章能够帮你解决Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/590817.html

来源：【匿名】

【上一篇】python 爬虫猫眼视频榜单top100 【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python 【爬虫】【图】

爬虫的工作原理首先，爬虫可以模拟浏览器去向服务器发出请求；其次，等服务器响应后，爬虫程序还可以代替浏览器帮我们解析数据；接着，爬虫可以根据我们设定的规则批量提取相关数据，而不需要我们去手动提取；最后，爬虫可以批量地把数据存储到本地爬虫的步骤第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步：提...

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页【图】

0元免费IP列表首先分享一波：免费代理由第三方服务器提供，IP质量不高。IP地址端口号匿名程度支持协议地区稳定时间更新时间FREE 114.233.51.111 4257 超高HTTP江苏省泰州市5-1440分钟2020/10/18 11:00:01FREE 49.71.99.110 4226 超高HTTP江苏省扬州市5-1440分钟2020/10/18 10:00:01FREE 183.4.66.22 4205 超高HTTP广东省江门市5-1440分钟2020/10/18 09:00:01FREE 119.7.231.13 64261 超高HTTP四川省雅安市5-1440分钟2020/10/...

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。\小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是：打开ch...

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

一、下载一只猫import urllib.requestresponse = urllib.request.urlopen("http://cdn.duitang.com/uploads/item/201111/24/20111124222137_wHYwc.jpg") cat_img = response.read()with open(‘cat_0.jpeg‘, ‘wb‘) as f:f.write(cat_img) urlopen()中的url可以是string，也可以是request object，因此可以是：import urllib.requestreq = urllib.request.Request("http://cdn.duitang.com/uploads/item/201111/24/2011112422213...

python 爬虫--同花顺-使用代理

1.http://www.goubanjia.com/ 在上面获取使用http协议的公网IP和端口参考：https://blog.csdn.net/qq_23934063/article/details/790639372. 关键代码如下：#python3# coding: utf-8from bs4 import BeautifulSoupimport requestsimport jsonimport timeimport randomcodelist = []for zxcode000 in range(100,999): code000 = ‘000‘ + str(zxcode000) codelist.append(code000)for zhongxiaocode in range(10,100): ...

Python爬虫：BeautifulSoup用法总结【代码】【图】

原文BeautifulSoup是一个解析HTML或XML文件的第三方库。HTML或XML文件可以用DOM模型解释。一般包含三种节点：元素节点 - 通常指HTML 或 XML的标签文本节点 - 标签内部的文本内容属性节点 - 每个标签的属性BeautifulSoup库可以对HTML或XML文件解析，查找到一个或多个标签元素，并获取每个标签里的文本和属性。BeautifulSoup很好的特性是它接受一个str或byte对象后会对编码自动检测，并对当前文档编码并转换成Unicode编码。这样可以不...

python爬虫---beautifulsoup（2）

之前我们使用的是python的自带的解析器html.parser。官网上面还有一些其余的解析器，我们分别学习一下。解析器使用方法优点缺点htm.parserBeautifulSoup(markup,‘html.parser‘)1、python自带的2、解析速度过得去3、容错强2.7之前的版本，和3.3之前不包括2.7的都不支持lxml`s HTML parserBeautifulSoup(markup,‘lxml‘)1、非常快2、容错强要安装C语言库lxml`s xml parser　BeautifulSoup(markup,[‘lxml‘,‘xml‘])BeautifulSou...

python爬虫 Selenium库学习【代码】

一、自动化测试工具，支持多种浏览器，解决JS渲染问题二、安装pip3 install Selenium三、操作介绍（因为是学习别人的课程为了尊重知识产权，部分代码就不显示了）1驱动浏览器browser = webdriver.Chrome()try: 　　　browser.get(‘www.sina.com‘)#上网 2查找元素一种方法：browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_id()browser.find_element_by_xpath()browser.find_elemen...

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。headers = {‘User-A...

Python 爬虫实例【代码】【图】

下面是我写的一个简单爬虫实例1.定义函数读取html网页的源代码2.从源代码通过正则表达式挑选出自己需要获取的内容3.序列中的htm依次写到d盘#!/usr/bin/python import re import urllib.request#定义函数读取html网页的源代码 def getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html#从源代码通过正则表达式挑选出自己需要获取的内容 def getImg(html):reg = r‘href="(.*?\.htm)"‘imgre = re.compile...

Python爬虫爬取房天下数据-入MySql数据库【代码】【图】

Python爬取房天下某城市数据随着互联网时代的兴起，技术日新月异，掌握一门新技术对职业发展有着很深远的意义，做的第一个demo，以后会在爬虫和数据分析方便做更深的研究，本人不会做详细的文档，有哪里不足的地方，希望大牛们指点讲解。废话不多说，上代码。你需要的技能：（1）对前端知识熟悉会调试浏览器（2）熟练python基础知识，对一些常用的库熟练掌握（3）掌握一般关系型数据库import requests as req import time import p...

Python爬虫_三种数据解析方式【代码】

正则解析单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W : 非\w\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S : 非空白数量修饰：* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} ：固定m次 hello{3,}{m,} ：至少m次{m,n} ：m-n次边界：$ : 以某某结尾 ^ : 以某某开头分组：(ab) 贪婪模式：...

Python爬虫（二）：Requests库【代码】

所谓爬虫就是模拟客户端发送网络请求，获取网络响应，并按照一定的规则解析获取的数据并保存的程序。要说 Python 的爬虫必然绕不过 Requests 库。1 简介对于 Requests 库，官方文档是这么说的：Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。这个介绍还是比较生动形象的，便...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据

Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据

内容导读

内容图文

这是准备阶段

一如既往的页面分析

二话不说的数据请求

三复斯言的数据解析

>>寻找数据字段所在节点

>>re数据解析

>>获取全部页面房源数据

四平八稳的数据清洗

>>数据去重

>>标题、朝向装修、楼层楼龄及位置信息清洗

>> 最终数据预览

内容总结

内容备注

内容手机端

【Python爬虫 | 手把手教你扒一扒贝壳网成交房源数据】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

Python 【爬虫】【图】

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页【图】

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

python 爬虫--同花顺-使用代理

Python爬虫：BeautifulSoup用法总结【代码】【图】

python爬虫---beautifulsoup（2）

python爬虫 Selenium库学习【代码】

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

Python 爬虫实例【代码】【图】

Python爬虫爬取房天下数据-入MySql数据库【代码】【图】

Python爬虫_三种数据解析方式【代码】

Python爬虫（二）：Requests库【代码】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程