首页 / 爬虫 / Forward团队-爬虫豆瓣top250项目-模块开发过程

Forward团队-爬虫豆瓣top250项目-模块开发过程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Forward团队-爬虫豆瓣top250项目-模块开发过程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1602字，纯文字阅读大概需要3分钟。

内容图文

项目托管平台地址:https://github.com/xyhcq/top250

我负责将爬取到的信息写入到文件中。

首先，先打开一个文件

# 打开文件
f=open("top250.txt","w")

然后在别的队员写的能够爬取出信息的代码上，加入将信息写入文件的的代码

def getData(html):
    # 分析代码信息，提取数据
    soup = BeautifulSoup(html, "html.parser")

    # 找到第一个class属性值为grid_view的ol标签
    movieList=soup.find(‘ol‘,attrs={‘class‘:‘grid_view‘})

    # 找到所有的li标签
    for movieLi in movieList.find_all(‘li‘):    
        # 找到第一个class属性值为hd的div标签
        movieHd=movieLi.find(‘div‘,attrs={‘class‘:‘hd‘})
        # 找到第一个class属性值为title的span标签 #也可使用.string方法

        # 获取电影名字
        movieName=movieHd.find(‘span‘,attrs={‘class‘:‘title‘}).getText()
        print movieName
        f.write(‘电影名:‘+movieName.encode(‘utf-8‘)+‘    ‘)

        # 获取电影链接
        movieUrl=movieHd.find(‘a class="" href="‘)
        print movieUrl
        # 写入文件
        f.write(‘链接:‘+str(movieUrl)+‘    ‘)

        # 获取电影导演/演员
        movieBd = movieLi.find(‘div‘, attrs={‘class‘: ‘bd‘})
        movieSF=movieBd.find(‘p‘,attrs={‘class‘:‘‘}).getText()
        print movieSF
        # 写入文件
        f.write(‘Staff:‘+movieSF.encode(‘utf-8‘)+‘    ‘)

        # 获取电影的评分
        movieScore=movieLi.find(‘span‘,attrs={‘class‘:‘rating_num‘}).getText()
        print movieScore
        # 写入文件
        f.write(‘评分:‘+movieScore.encode(‘utf-8‘)+‘    ‘)

        #获取电影的评论数
        movieEval=movieLi.find(‘div‘,attrs={‘class‘:‘star‘})
        movieEvalNum=re.findall(r‘\d+‘,str(movieEval))[-1]
        print movieEvalNum
        f.write(‘评论数:‘+movieEvalNum.encode(‘utf-8‘)+‘    ‘)

        # 获取电影短评
        movieQuote = movieLi.find(‘span‘, attrs={‘class‘: ‘inq‘})
        # 有的电影没有短评，为防止报错，加次
        if(movieQuote):
            print movieQuote.getText()
            # 写入文件
            f.write(‘短评:‘+movieQuote.getText().encode(‘utf-8‘)+‘\n‘)
        else:
            # 写入文件
            f.write(‘短评:‘+"这个电影没有短评"+‘\n‘)

最后还要注意，写入完成后如果不闭文件会导致文件写入不全。

# 关闭文件，否则容易写入不全    
f.close()

原文：http://www.cnblogs.com/kasumis/p/7780389.html

内容总结

以上是互联网集市为您收集整理的Forward团队-爬虫豆瓣top250项目-模块开发过程全部内容，希望文章能够帮你解决Forward团队-爬虫豆瓣top250项目-模块开发过程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1206922.html

来源：【匿名】

【上一篇】【现学现卖】python小爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Forward团队-爬虫豆瓣top250项目-模块开发过程】教程文章相关的互联网学习教程文章

Forward团队-爬虫豆瓣top250项目-模块开发过程【代码】

项目托管平台地址:https://github.com/xyhcq/top250 我负责将爬取到的信息写入到文件中。首先，先打开一个文件# 打开文件 f=open("top250.txt","w")然后在别的队员写的能够爬取出信息的代码上，加入将信息写入文件的的代码def getData(html):# 分析代码信息，提取数据soup = BeautifulSoup(html, "html.parser")# 找到第一个class属性值为grid_view的ol标签movieList=soup.find(‘ol‘,attrs={‘class‘:‘grid_view‘})# 找到所有...

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...

爬虫之Beautifulsoup模块【代码】

一、介绍Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.目前已经开发到4.0以上了baautiful soup常用的解析器如下：解析器使用方法优势劣势Python标准库BeautifulSoup(markup, "html.parser")Python的内置标准库执行速度适中文档容错能力强Python 2.7.3 or 3.2.2)前的版本中文档容错能力差lxm...

Python爬虫之request模块【代码】

1. 请求方式# 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求1. Request = requests.rquest(method, url, **kwargs) # 构造一个请求# ethod(6个) head/get/post/put/patch/delete2. requests.head(url, **kwargs)3. requests.ge...

二 . 爬虫 requests模块使用和请求响应相关参数【代码】

一 . requests模块使用和请求响应相关参数https://www.cnblogs.com/wupeiqi/articles/6283017.html1. requests get请求相关参数import requestsurl = ‘http://httpbin.org/get?name=bob‘# 请求url，？后面拼接的是参数 params = {‘name‘: ‘nick‘,‘age‘: ‘18‘} # 参数，与url上的参数同时存在，没有优先级，若key相同，则值以列表形式存在 cookies = {‘xxx‘: ‘111‘,‘yyy‘: ‘222‘} # cookie值，若headers中有...

爬虫基础模块【代码】

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。...

Forward团队-爬虫豆瓣top250项目-模块开发过程

项目托管平台地址:https://github.com/xyhcq/top250 开发模块功能: 整合代码：控制是否将信息显示出来开发时间:2小时左右实现了：在上一名成员的程序基础上控制是否将信息显示在屏幕上实现过程：先声明一个变量作为是否显示的开关 # 控制台输出抓取结果showInfo = 1 showInfo=raw_input(‘是否需要在窗口显示结果，是为1，否为0，默认值为1：‘)if showInfo != ‘1‘: showInfo=0else : showInfo =1 在每项信息中加入判断语句...

Python爬虫-urllib模块【代码】【图】

【爬虫大世界】　　学习爬虫，最初的操作便是模拟浏览器向服务器发出请求。至于怎么做，不必感到无从下手，Python提供了功能齐全的类库来帮助我们完成这一操作　　最基础的HTTP库有urllib、httplib2、request、treq等【3.1使用urllib】　　在Python2中，有urllib和urllib2两个库来实现请求的发送；而在Python3中，已经不存在urllib2了，统一为urllib，其官方文档为：https://docs.python.org/3/library/urllib.html　　urllib库是P...

selenium模块跳过用户名密码验证码输入，加载浏览器标签和cookie，进行翻页爬虫多页动态加载的数据（js)【代码】

能解决登陆一次后，之后不需要二次登陆的动态加载数据，网页保存的cookie和标签，加入到selenium自动化测试浏览器中 1from selenium import webdriver2import re3from time import sleep4 5def willbill():6‘‘‘点击翻页，获取下一页数据，进行正则匹配‘‘‘ 7 driver.find_element_by_xpath(‘//*[@id="upPage"]/li[5]/a‘).click()8 sleep(3)9 data = driver.page_source 10 results_list = ‘class="limingc...

Node.js爬虫之网页请求模块详解

本文主要介绍了浅谈Node.js爬虫之网页请求模块，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧，希望能帮助到大家。本文介绍了Node.js爬虫之网页请求模块，分享给大家，具体如下：注：如您下载最新的nodegrass版本，由于部分方法已经更新，本文的例子已经不再适应，详细请查看开源地址中的例子。一、为什么我要写这样一个模块？源于笔者想使用Node.js写一个爬虫，虽然Node.js官方API提供的请求远程...

node.js基础模块http、网页分析工具cherrio实现爬虫_node.js【图】

一、前言说是爬虫初探，其实并没有用到爬虫相关第三方类库，主要用了node.js基础模块http、网页分析工具cherrio。使用http直接获取url路径对应网页资源，然后使用cherrio分析。这里我主要学习过的案例自己敲了一遍，加深理解。在coding的过程中，我第一次把jq获取后的对象直接用forEach遍历，直接报错，是因为jq没有对应的这个方法，只有js数组可以调用。二、知识点①：superagent抓去网页工具。我暂时未用到。②：cherrio 网页...

浅谈Node.js爬虫之网页请求模块

本文介绍了Node.js爬虫之网页请求模块，分享给大家，具体如下：注：如您下载最新的nodegrass版本，由于部分方法已经更新，本文的例子已经不再适应，详细请查看开源地址中的例子。一、为什么我要写这样一个模块？源于笔者想使用Node.js写一个爬虫，虽然Node.js官方API提供的请求远程资源的方法已经非常简便，具体参考 http://nodejs.org/api/http.html 其中对于Http的请求提供了，http.get(options, callback)和http.request(opti...

node.js基础模块http、网页分析工具cherrio实现爬虫【图】

一、前言说是爬虫初探，其实并没有用到爬虫相关第三方类库，主要用了node.js基础模块http、网页分析工具cherrio。使用http直接获取url路径对应网页资源，然后使用cherrio分析。这里我主要学习过的案例自己敲了一遍，加深理解。在coding的过程中，我第一次把jq获取后的对象直接用forEach遍历，直接报错，是因为jq没有对应的这个方法，只有js数组可以调用。二、知识点 ①：superagent抓去网页工具。我暂时未用到。 ...

详解Python之urllib爬虫、request模块和parse模块【代码】【图】

文章目录urllibrequest模块访问URLRequest类其他类parse模块解析URL转义URLrobots.txt文件（免费学习推荐：python视频教程）urlliburllib是Python中用来处理URL的工具包，源码位于/Lib/下。它包含了几个模块：用于打开及读写的urls的request模块、由request模块引起异常的error模块、用于解析urls的parse模块、用于响应处理的response模块、分析robots.txt文件的robotparser模块。注意版本差异。urllib有3个版本：Python2.X包含url...

python爬虫需要调用什么模块【图】

python 爬虫常用模块：Python标准库——urllib模块功能：打开URL和http协议之类注：python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()，urllib2.Request()变成了urllib.request.Request()urllib请求返回网页urllib.request.urlopenurllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])urllib.requset.urlioen可以打开HTTP（主要）、HTTPS、FT...

模块 - 相关标签

模块代码模块化编程

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / Forward团队-爬虫豆瓣top250项目-模块开发过程

Forward团队-爬虫豆瓣top250项目-模块开发过程

内容导读

内容图文

内容总结

内容备注

内容手机端

【Forward团队-爬虫豆瓣top250项目-模块开发过程】教程文章相关的互联网学习教程文章

模块 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程