python爬取酒店信息练习

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬取酒店信息练习，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8931字，纯文字阅读大概需要13分钟。

内容图文

　　爬取酒店信息，首先知道要用到那些库。本次使用request库区获取网页，使用bs4来解析网页，使用selenium来进行模拟浏览。

　　本次要爬取的美团网的蚌埠酒店信息及其评价。爬取的网址为“http://hotel.meituan.com/bengbu/”。首先获取导航页的相关信息，具体代码如下

url = 'http://hotel.meituan.com/bengbu/'

# 获取酒店分页信息，返回最大页码
html = requests.get(url).text
soup = BeautifulSoup(html,'html.parser')
page_info = soup.find_all('li',class_='page-link')  # 获取酒店首页的页面导航条信息
get_page_num = page_info[-1].find('a').get_text()       # 获取酒店页面的总页数
print(get_page_num)

　　获取了上面的信息，就可以选择一个具体网页，利用Google浏览器的F12查看具体的元素，利用xpath定位相关元素，把获取的信息保存在文件夹下，具体方法代码如下

# 获取所有酒店详细信息
def get_hotel_info(url):
    dcap = dict(DesiredCapabilities.PHANTOMJS)
    dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
    browser = webdriver.PhantomJS("D:/PhantomJS/phantomjs-2.1.1-windows/bin/phantomjs", desired_capabilities=dcap)         #指定phantomjs程序路径
    browser.get(url)
    hotel_info = {}
    page_num = 1


    while(page_num < int(get_page_num)+1):
        # 获取一个页面的所有酒店信息
        for item in browser.find_elements_by_class_name('info-wrapper'):
            hotel_info['name'] = item.find_element_by_class_name('poi-title').text
            hotel_info['star'] = item.find_element_by_class_name('poi-grade').text
            hotel_info['consumers'] = item.find_element_by_class_name('poi-buy-num').text
            hotel_info['link'] = item.find_element_by_class_name('poi-title').get_attribute('href')
            print("酒店名称:{}".format(hotel_info['name']))
            print("酒店评分:{}".format(hotel_info['star']))
            print("酒店销量:{}".format(hotel_info['consumers']))
            print("酒店链接:{}".format(hotel_info['link']))
            f = open("酒店信息.txt", 'a', encoding="utf8")
            f.write(hotel_info['name']+"\n"+hotel_info['star']+"\n"+hotel_info['consumers']+"\n"+hotel_info['link']+"\n")
            u = hotel_info['link'][25:-1]
            # print(u)
            # 获取酒店前10页评论内容(动态加载的静态爬取)
            for i in range(10):
                page = i + 1
                s = i * 10
                print("正在加载第" + str(page) + "页评论")
                html = "http://ihotel.meituan.com/group/v1/poi/comment/" + u + "?sortType=default&noempty=1&withpic=0&filter=all&limit=10&offset=" + str(
                      s)+"&X-FOR-WITH="
                # print(html)
                # 第一次只使用一个header导致爬取信息不全，添加多个可以正常爬取
                my_headers = [
                    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
                    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
                    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
                ]
                randdom_header = random.choice(my_headers)
                headers = {
                    "User-Agent":randdom_header,
                    "Host":"ihotel.meituan.com"
                    }
                r = requests.get(html,headers=headers)
                print(r.text)
                data = json.loads(r.text,strict=False)
                # print(data)
                comments = data['data']['feedback']
                for n in comments:
                    replytime = n['feedbacktime']
                    content = n['comment']
                    # print("评论时间：", replytime)
                    # print("评论内容：", content)
                    f = open("jieguo-1.txt", 'a',encoding="utf8")
                    f.write(content+"\n")




        browser.find_element_by_class_name('paginator').find_element_by_class_name('next').find_element_by_tag_name('a').click()  # 一个页面写完后，通过点击"下一页"图标至下一页，继续获取
        time.sleep(1)
        page_num += 1

　　实现了上述的方法，就可以把完整的酒店信息抓取下来，所有代码如下：

 1 # encoding="utf8"
 2 # 爱学习的兔兔
 3 import requests
 4 from bs4 import BeautifulSoup
 5 from selenium import webdriver
 6 from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 7 import time
 8 import json
 9 import random
10 
11 url = 'http://hotel.meituan.com/bengbu/'
12 
13 # 获取酒店分页信息，返回最大页码
14 html = requests.get(url).text
15 soup = BeautifulSoup(html,'html.parser')
16 page_info = soup.find_all('li',class_='page-link')  # 获取酒店首页的页面导航条信息
17 get_page_num = page_info[-1].find('a').get_text()       # 获取酒店页面的总页数
18 print(get_page_num)                                     # 返回酒店页面的
19 
20 # 获取所有酒店详细信息
21 def get_hotel_info(url):
22     dcap = dict(DesiredCapabilities.PHANTOMJS)
23     dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
24     browser = webdriver.PhantomJS("D:/PhantomJS/phantomjs-2.1.1-windows/bin/phantomjs", desired_capabilities=dcap)         #指定phantomjs程序路径
25     browser.get(url)
26     hotel_info = {}
27     page_num = 1
28 
29 
30     while(page_num < int(get_page_num)+1):
31         # 获取一个页面的所有酒店信息
32         for item in browser.find_elements_by_class_name('info-wrapper'):
33             hotel_info['name'] = item.find_element_by_class_name('poi-title').text
34             hotel_info['star'] = item.find_element_by_class_name('poi-grade').text
35             hotel_info['consumers'] = item.find_element_by_class_name('poi-buy-num').text
36             hotel_info['link'] = item.find_element_by_class_name('poi-title').get_attribute('href')
37             print("酒店名称:{}".format(hotel_info['name']))
38             print("酒店评分:{}".format(hotel_info['star']))
39             print("酒店销量:{}".format(hotel_info['consumers']))
40             print("酒店链接:{}".format(hotel_info['link']))
41             f = open("酒店信息.txt", 'a', encoding="utf8")
42             f.write(hotel_info['name']+"\n"+hotel_info['star']+"\n"+hotel_info['consumers']+"\n"+hotel_info['link']+"\n")
43             u = hotel_info['link'][25:-1]
44             # print(u)
45             # 获取酒店前10页评论内容(动态加载的静态爬取)
46             for i in range(10):
47                 page = i + 1
48                 s = i * 10
49                 print("正在加载第" + str(page) + "页评论")
50                 html = "http://ihotel.meituan.com/group/v1/poi/comment/" + u + "?sortType=default&noempty=1&withpic=0&filter=all&limit=10&offset=" + str(
51                       s)+"&X-FOR-WITH="
52                 # print(html)
53                 # 第一次只使用一个header导致爬取信息不全，添加多个可以正常爬取
54                 my_headers = [
55                     "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
56                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
57                     "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
58                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
59                     "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
60                 ]
61                 randdom_header = random.choice(my_headers)
62                 headers = {
63                     "User-Agent":randdom_header,
64                     "Host":"ihotel.meituan.com"
65                     }
66                 r = requests.get(html,headers=headers)
67                 print(r.text)
68                 data = json.loads(r.text,strict=False)
69                 # print(data)
70                 comments = data['data']['feedback']
71                 for n in comments:
72                     replytime = n['feedbacktime']
73                     content = n['comment']
74                     # print("评论时间：", replytime)
75                     # print("评论内容：", content)
76                     f = open("jieguo-1.txt", 'a',encoding="utf8")
77                     f.write(content+"\n")
78 
79 
80 
81 
82         browser.find_element_by_class_name('paginator').find_element_by_class_name('next').find_element_by_tag_name('a').click()  # 一个页面写完后，通过点击"下一页"图标至下一页，继续获取
83         time.sleep(1)
84         page_num += 1
85 
86 def main():
87     get_hotel_info(url)
88 
89 if '__main__' == __name__:
90     main()

　　这样就顺利的拿到了酒店信息和评价，为了简单分析下拿到的数据，使用了SnowNLP分词看数据，发现效果一般，又使用了jieba分词和词云来分析，得出一张图片如下图：

python爬取酒店信息练习 - 文章图片

这里没有对符号进行过滤，只能给出一个大体的评价关系图。具体代码图下：

# encoding="utf8"
# SnowNLP分词
# 爱学习的兔兔
from snownlp import SnowNLP
f = open("jieguo-1.txt","r",encoding="utf8")
r = f.readlines()   #按行读取
#for line in r:
s = SnowNLP(str(r))
for sentence in s.sentences:
    print(sentence)

# jieba分词与词云
import jieba.posseg as posseg
from collections import Counter
from wordcloud import WordCloud
#for line in r:
words = [w for w,f in posseg.cut(str(r))]
print(words)
c = Counter(words)
print(c.most_common(20))
wc = WordCloud(font_path='c:\\Windows\\Fonts\\simkai.ttf', height=1080, width=1920).generate_from_frequencies(c)
image = wc.to_image()
image.show()
wc.to_file("ex2.png")

　　整体走下来，感觉写个简单的爬虫能学到不少有用的信息。

内容总结

以上是互联网集市为您收集整理的python爬取酒店信息练习全部内容，希望文章能够帮你解决python爬取酒店信息练习所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/856043.html

来源：【匿名】

【上一篇】Python开课复习9-28 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python爬取酒店信息练习】教程文章相关的互联网学习教程文章

问题描述：在比较词表的讨论中，创建一个对象叫做translate，通过它你可以使用德语和意大利语词汇查找对应的英语词汇。这种方法可能会出现什么问题，你能提出一个办法来避免这个问题吗？书上的做法是通过entries()方法来指定一个语言链表来访问多语言中的同源词，再把它转换成一个简单的词典。代码如下：1from nltk.corpus import swadesh 2swadesh.fileids() 3 it2en = swadesh.entries([‘it‘, ‘en‘]) 4 de2en = swadesh.entr...

python3练习-查找文件【代码】

题: 编写一个程序，能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件，并打印出相对路径import os import os.pathdef find_file(root,param=None):ifnot isinstance(param,str) :raise‘param必需为字符串‘for root, dirs, files in os.walk(root):s = [x for x in files if param in x]if len(s) > 0 :for x in s:print(os.path.join(root,x))find_file(‘../‘,‘4‘)在学习过程中遇到此题，经过API了解...

Python练习实例030【代码】

问题：一个5位数，判断它是不是回文数。即12321是回文数，个位与万位相同，十位与千位相同。#! /usr/bin/env python3 # -*- coding:utf-8 -*-# Author : Ma Yi # Blog : http://www.cnblogs.com/mayi0312/ # Date : 2020-06-22 # Name : demo030 # Software : PyCharm # Note : 一个5位数，判断它是不是回文数。即12321是回文数，个位与万位相同，十位与千位相同。def fun(n: int):"""判断给定的数字是不是回文数...

python练习-for range if continue【代码】

for i in range (1,6): print print print "i=", i, print "hello,how", if i==3: continue print ‘are you today?‘原文：http://huzhongliang.blog.51cto.com/1817180/1890999

python入门练习题2【代码】

1，制作表格　　循环提示用户输入：用户名，密码，邮箱（要求用户输入的长度超过20个字符，如果超过则只有前20个字符有效）如果用户输入q或Q就退出程序，将用户输入的内容以表格形式显示 user_input = None #用户名的初始值 pwd = None #密码的初始值 email = None #邮箱地址的初始值 public = None #公共变量名初始值 flag = False #标志位 while not flag: #当flag不为False时，就执行以下代码块print(‘温馨提醒：如...

python核心编程--第八章 8.15 练习【代码】

#!/usr/bin/python # -*- coding: utf-8 -*-# 8–2. 循环. 编写一个程序, 让用户输入三个数字: (f)rom, (t)o, 和 (i)ncrement . # 以 i为步长, 从 f 计数到 t , 包括 f 和 t . 例如, 如果输入的是 f == 2, # t == 26, i == 4 , 程序将输出 2, 6, 10, 14, 18, 22, 26.f = int(raw_input("Please input from: ")) t = int(raw_input("Please input to: ")) i = int(raw_input("Please input increment: "))print range(f, ...

Leetcode练习(Python)：哈希表类：第138题：给定一个链表，每个节点包含一个额外增加的随机指针，该指针可以指向链表中的任何节点或空节点。要求返回这个链表的深拷贝。我们用一个由 n 个节点组成的链表来表示输入/输出中的链表。

题目：给定一个链表，每个节点包含一个额外增加的随机指针，该指针可以指向链表中的任何节点或空节点。要求返回这个链表的深拷贝。我们用一个由 n 个节点组成的链表来表示输入/输出中的链表。每个节点用一个 [val, random_index] 表示：val：一个表示 Node.val 的整数。random_index：随机指针指向的节点索引（范围从 0 到 n-1）；如果不指向任何节点，则为 null 。思路：先使用哈希表来构建一个新的链表，然后对这个链表赋予ne...

Python小练习（一）【代码】

1：有一个列表，其中包括10个元素，例如这个列表是[1,2,3,4,5,6,7,8,9,0],要求将列表中的每个元素一次向前移动一个位置，第一个元素到列表的最后，然后输出这个列表。最终样式是[2,3,4,5,6,7,8,9,0,1] #!/usr/bin/python #encoding=utf-8 #有一个列表，其中包括10个元素，例如这个列表是[1,2,3,4,5,6,7,8,9,0],要求将列表中的每个元素一次向前移动一个位置，第一个元素到列表的最后，然后输出这个列表。最终样式是[2,3,4,5,6,7,...

python基础 Day01 练习题【代码】【图】

1 字符串格式化 1#!/urs/bin/env python 2 3 name = input("Name: ")4 age = int(input("Age: "))5 job = input("Job: ")6 salary = input("Salary: ")7 8 info1 = """ 910----------- info1 of %s --------- 11name: %s 12age: %s 13job: %s 14Salary: %s 15""" % (name, name, age, job, salary) 1617print(info1) 1819 info2 = """2021----------- info2 of {_name} ---- 22Name: {_name} 23Age: {_age} 24Job: {_job} 25Salary...

python列表生成式和生成器表达式小练习【代码】

题目一：有两个列表，分别存放来老男孩报名学习linux和python课程的学生名字linux=[‘钢弹‘,‘小壁虎‘,‘小虎比‘,‘alex‘,‘wupeiqi‘,‘yuanhao‘]python=[‘dragon‘,‘钢弹‘,‘zhejiangF4‘,‘小虎比‘]问题一：得出既报名linux又报名python的学生列表#常规写法： linux=[‘钢弹‘,‘小壁虎‘,‘小虎比‘,‘alex‘,‘wupeiqi‘,‘yuanhao‘] python=[‘dragon‘,‘钢弹‘,‘zhejiangF4‘,‘小虎比‘] l=[] for i in linux:...

老男孩python基础知识练习题（一）中【代码】

20、字符串是否可迭代？如可以请使用for循环每一个元素？>>> name = " aleX ">>> for i in name:... print(i)21、请代码实现：利用下划线将列表的每一个元素拼接成字符串，li = [‘alex‘,‘eric‘,‘rain‘]li = [‘alex‘,‘eric‘,‘rain‘]v=‘‘.join(li)print(v)22、写代码，有如下列表，按照要求实现每一个功能（所有练习题同样适用于元组）li = [‘alex‘,‘eric‘,‘rain‘]a.计算列表长度并输出li = [‘alex‘,‘eri...

python练习：从番号到封面【代码】

我不知道为什么会选择python去学习，可能和前阵子有在v2ex看到有同学用python抓磁力的有关，今天12点起床闲来无事，继续学习吧。本来也想找个磁力站练练手抓抓magnet的，打开收藏夹的几个站点才发现URL全都加密了。一个个找，终于发现一个可以联手的网站。嘻嘻。 1#!/usr/bin/env python 2 3#coding :UTF-8 4 __auther__ = ‘mashaz‘5import urllib,urllib26import sys7import re8print‘Thank ****** a lot‘ 9 url = ‘http://w...

Python练习题–持续更新【代码】

1、你是一个高级测试工程师，现在要做性能测试，需要你写一个函数，批量生成一些注册使用的账号。产生的账号是以@163.com结尾，长度由用户输入，产生多少条也由用户输入，用户名不能重复，用户名必须由大写字母、小写字母、数字组成，结果如下图： 2、测试机器的磁盘太小，经常报警，要写一个清理日志的脚本，每次运行就把三天之前的日志删除，日志名的格式是xxx-20170623.log。 3、公司服务器，经常被别人攻击，要写个监控ngin...

Python练习【代码】【图】

1.输出hello worldprint(‘hello world‘)2.简单交互name=input(‘name=:‘) print(‘我的名字是:{}‘.format(name))3.计算两数之和print(‘两者之和为:%.0f‘%float(float(input(‘输入第一个数字:‘))+float(input(‘输入第二个数字:‘))))4.计算三角形面积a=float(input(‘a=‘)) b=float(input(‘b=‘)) c=float(input(‘c=‘)) p=float((float(a+b+c))/2) print(‘三角形abc的面积为:%.0f‘%float((p*(p-a)*(p-b)*(p-c))**0.5...

Python基本图形绘制练习题代码记录【代码】

样例Python蛇#PythonDraw.py #调用turtle库import turtle #设置窗口大小（窗口长度、窗口宽度、窗口距离屏幕的距离） turtle.setup(650,350,200,200) #penup抬起画笔turtle.penup() #fd向后画250个像素的直线 turtle.fd(-250) #pendown放下画笔turtle.pendown() #pensize画笔尺寸为25个像素 turtle.pensize(25) #pencolor画笔颜色函数 turtle.pencolor("purple") #seth函数全程为setheading(angle)：控制海龟角度 turtle.seth(-40)...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python爬取酒店信息练习

python爬取酒店信息练习

内容导读

内容图文

内容总结

内容备注

内容手机端

【python爬取酒店信息练习】教程文章相关的互联网学习教程文章

《Python自然语言处理》第二章习题解答练习6【代码】

python3练习-查找文件【代码】

Python练习实例030【代码】

python练习-for range if continue【代码】

python入门练习题2【代码】

python核心编程--第八章 8.15 练习【代码】

Python小练习（一）【代码】

python基础 Day01 练习题【代码】【图】

python列表生成式和生成器表达式小练习【代码】

老男孩python基础知识练习题（一）中【代码】

python练习：从番号到封面【代码】

Python练习题–持续更新【代码】

Python练习【代码】【图】

Python基本图形绘制练习题代码记录【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程