首页 / 爬虫 / 用Python写爬虫，用什么方式、框架比较好？

用Python写爬虫，用什么方式、框架比较好？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用Python写爬虫，用什么方式、框架比较好？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4226字，纯文字阅读大概需要7分钟。

内容图文

以前只写过很简单的Python爬虫，直接用内置库实现，有没有谁用Python爬过规模较大的数据，用的是什么方法？
还有，采用现有的Python爬虫框架，相比与直接使用内置库，优势在哪？因为Python本身写爬虫已经很简单了。

回复内容：

可以看看 Scrapy ( http://scrapy.org/ )，基于这个框架来写自己的爬虫由于项目需求收集并使用过一些爬虫相关库，做过一些对比分析。以下是我接触过的一些库：

Beautiful Soup。名气大，整合了一些常用爬虫需求。缺点：不能加载JS。
Scrapy。看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
mechanize。优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。

以下是我的一些实践经验：

对于简单的需求，比如有固定pattern的信息，怎么搞都是可以的。
对于较为复杂的需求，比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发，这种情况下是很难找到一个契合需求的库的，很多东西只能自己写。

至于题主提到的：

还有，采用现有的Python爬虫框架，相比与直接使用内置库，优势在哪？因为Python本身写爬虫已经很简单了。

third party library可以做到built-in library做不到或者做起来很困难的事情，仅此而已。还有就是，爬虫简不简单，完全取决于需求，跟Python是没什么关系的。要处理 js 运行后的结果，可以使用 html5lib。
但我觉得最好的是用 beautifulsoup4 的接口，让它内部用 html5lib。自己写爬虫的话，用一些异步事件驱动库，如gevent，比单纯多线程要好很多。大二的时候写了一个网络爬虫爬取 http://amazon.com的某类商品的bestseller top100 的所有评论。

也不用什么框架，在linux下用的叫做 beautifulsoup的库帮助解析html，正则表达式也可以啦不过好麻烦。

爬虫好慢啦，有个小技巧是走代理，因为是外国网站嘛，非常慢，而且可以防止同一个ip访问次数太多。

大概有几万个网页吧，然后用beautifsoup解析，挑一些自己感兴趣的数据，比如打分、评论、商家、分类什么的。然后用一些科学库做一些简单的统计和报表，比如 numpy、scipy、matplotlib等。网上也有好多数据生成报表的 js 库，很酷炫，也很不错的：）

恩，就是这样。我也来回答一下吧.

如果楼主想爬去更大规模的东西,可以有两种方案,一种自己写一个爬虫框架,另一总通过爬虫框架.
1,自己动手写一个爬虫框架,我没写过没法说
2,通过线程的爬虫框框架.
用的比较多的是scrapy,首先scrapy异步,然后scrapy可以写成分布式爬虫.这样面对大数据再也不用爬一辈子啦.
另外还有pyspider,sola等.更多的爬虫我也在收集中,不过如果你要着手开始用框架的话,大概只能找到这两个,究其原因,还是因为很多框架是是英语写的吧,大部分不愿意爬英语的坑.

还有有人提到cola,这个是国人写的,作者这样说过

靠，以前只是听过scrapy，从来没去看过，刚看了一下，发现除了分布式的部分，竟然真挺像的。
从scrapy倒是有启发可以保存json文件的形式，减少对数据库的依赖。

想了一下，分布式还是我的初衷，真没想到其他部分这么相近。

其实用那个框架到不是一件值得纠结的事,因为几乎没得选.

第二个问题.python自己的类库和框架有什么区别?
你问这样的问题,是因为,你现在爬的需求还很简单!!
仅仅是爬静态页的话,而且爬不了多少个,真心建议你喜欢什么就用什么好了,或者直接就用类库吧,推荐requests,几行代码就搞定了

但是,生活中不光有静态页这种东西啊,还有ajax,还有js,还有各种各样莫名其妙的细节.

而细节是相当可怕的存在,比如,数据的提取,用正则还是xpath,为什么不是所有的页面都有下一页,一晚上爬了5000条数据,我一共有20万条怎么办,爬虫又被封了,我靠.

有时候想想自己真够坚定不移的.也真是烦

这个时候,你就会知道框架的好处了,框架最大的作用,在于用最简单的方法帮助你实现需求,也就是说,如果你现在可以很好的满足工作的需要,那就不要看框架,如果工作有些吃力,那就去看看吧,说不定别人已经造好了轮子,等着你推车呢!老汉!

cola的链接给你吧
Cola：一个分布式爬虫框架
scrapy百度就是
pyspider还没用这个要看个人了，开始可以先看scrapy方面的内容，然后结合redis，实现分布式，具体实现可以参考github上的代码，如chineking/cola · GitHub。
存储的话，需要mongodb，要深入的话，这方面的内容还是挺多，而且mongodb可以实现集群式存储，完全可以满足楼主的要求。
框架有很多，比如爬虫框架 | 为自己写代码，楼主可以尝试下。
爬取大规模的数据其实可以通过分布式来实现。我的博客里有很详细的叙述和源码,python3.4实现。
欢迎交流网络资源搜索爬虫(python 3.4.1实现) 写了一个小爬虫爬学校学生的照片成绩，爬了三四天。好几次都是卡死我开发了一个云端爬虫开发框架：神箭手，可以让开发者在云上使用Javascript编写和运行爬虫，欢迎大家来使用拍砖~

内容总结

以上是互联网集市为您收集整理的用Python写爬虫，用什么方式、框架比较好？全部内容，希望文章能够帮你解决用Python写爬虫，用什么方式、框架比较好？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/435121.html

来源：【匿名】

【上一篇】如何优化Python爬虫的速度？【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【用Python写爬虫，用什么方式、框架比较好？】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

不知不觉养成了一个习惯：完成一个工作或学习新知识后，要及时整理，否则过一段时间就忘记了。下面是用scrapy 爬虫框架读取行政区划的记录1. SelectorGadget 是个好东西，下载和安装可以网上查安装后，会在crome浏览器右上角有个图标。点击右上角这个图标后，进入css选取模式，（1）点击网页内容，被选取内容显示黄色，同时css选择器会显示在控制面板上。（2）再点击黄色内容，会变红色，表示排除这一项标签。如图：表...

爬虫Scrapy框架-初学

安装： python -m pip install Scrapy创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）进入项目：cd xxx #进入某个文件夹下创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可! /* 其他生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)运...

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

一、Scrapy初识Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有很强通用性的项目模板。- Scrapy内容- 基于框架发起请求- 数据解析- 持久化存储- 核心组件的工作原理- 全站数据爬取- 深度爬取- 中间件- 分布式- 增量式原文：https://www.cnblogs.com/dai-zhe/p/14800745.html

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫框架Pyspider安装及问题【代码】

目录Windows下安装Anaconda,问题及解决1.wsgidav版本问题2.wsgidav版本问题3.webui显示不全，或者说相关的css和js加载不出来运行后的webUI和网页上看到的不一样，查看http://127.0.0.1:5000的源码, 发现是cdnjs.cloudflare.com无法响应4.运行pyspider all命令后一直停留在 result_worker starting...参考：Windows下安装Anaconda,开一个Python3.6的虚拟环境(直接创环境无法设置Python版本，新建环境后使用命令conda install python...

爬虫框架_scrapy1【代码】【图】

介绍： Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因...

scrapy爬虫框架(二)【代码】

scrapy爬虫框架(二)将数据保存到json文件中settings.py打开pipeline,其中数字代表优先级（值越小优先级越高）# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = {'qsbkSpider.pipelines.QsbkspiderPipeline': 300, }qsbk.py# -*- coding: utf-8 -*- import scrapyclass QsbkSpider(scrapy.Spider):name = 'qsbk'allowed_domains = ['www.yicommunity.com']start_ur...

Scrapy爬虫框架的安装和使用【代码】

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。官方网站：https://scrapy.org官方文档：https://docs.scrapy.orgPyPI：https://pypi.python.org/pypi/ScrapyGitHub：https://github.com/scrapy/scrapy中文文档：http://scrapy-chs.readthedocs.io一、安装Scrapy如果你的...

Mooc爬虫05-scrapy框架【代码】【图】

1 scrapy框架的介绍　　安装pip install scrapy　　查看是否安装完成scrapy ‐h　　scrapy框架是实现爬虫功能的一个软件结构和功能组件集合　　scrapy爬虫框架的结构原文：http://www.cnblogs.com/weihuchao/p/6716623.html

社会化海量数据采集爬虫框架搭建【代码】【图】

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整...

爬虫框架 -->scrapy【代码】

scrapy框架　- 框架 : 具有很多功能,且具有很强通用性的项目模板　　- 环境安装 :#环境准备linux 系统　pip3 install scrapywindows系统1 pip3 install wheel2 下载 Twisted-19.2.0-cp36-cp36m-win-amd64.whl3 进入下载目录，执行 pip3 install Twisted?19.2.0?cp36?cp36m?win_amd64.whl4 pip3 install pywin5 pip3 install wheel 什么是scrapy?Scrapy 是一个为了爬取网站数据,提取结构性数据编写的应用框架,.非常强大,所谓的框架就...

爬虫框架Scrapy之详解【图】

Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted[‘tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scrapy架构图(绿...

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

scrapy安装配置不在本文提及，1.在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：scrapy.cfg ：项目的配置文件mySpider/ ：项目的Python模块，将会从这里引用代码mySpider/items.py ：项目的目标文件mySpider/pipelines.py ：项目的...

Python爬虫进阶二之PySpider框架安装配置【图】

关于首先，在此附上项目的地址，以及官方文档PySpider官方文档安装1. pip首先确保你已经安装了pip，若没有安装，请参照pip安装2. phantomjsPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。安装以上附有官方安装方式，如果你是 Ubuntu 或 ...

首页 / 爬虫 / 用Python写爬虫，用什么方式、框架比较好？

用Python写爬虫，用什么方式、框架比较好？

内容导读

内容图文

回复内容：

内容总结

内容备注

内容手机端

【用Python写爬虫，用什么方式、框架比较好？】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

爬虫Scrapy框架-初学

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

Python爬虫框架Scrapy安装使用步骤

Python爬虫框架Pyspider安装及问题【代码】

爬虫框架_scrapy1【代码】【图】

scrapy爬虫框架(二)【代码】

Scrapy爬虫框架的安装和使用【代码】

Mooc爬虫05-scrapy框架【代码】【图】

社会化海量数据采集爬虫框架搭建【代码】【图】

爬虫框架 -->scrapy【代码】

爬虫框架Scrapy之详解【图】

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

Python爬虫进阶二之PySpider框架安装配置【图】

PYTHON - 相关标签

爬虫 - 相关标签

框架 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程