首页 / 爬虫 / Python写爬虫都用到什么库
Python写爬虫都用到什么库
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python写爬虫都用到什么库,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1779字,纯文字阅读大概需要3分钟。
内容图文
![Python写爬虫都用到什么库](/upload/InfoBanner/zyjiaocheng/424/4920a96a224a48e59b6df3251b1a9218.jpg)
![Python写爬虫都用到什么库 - 文章图片](/upload/getfiles/0001/2021/4/24/20210424011441119.jpg)
Python爬虫,全称Python网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或脚本,主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等,Python为支持网络爬虫正常功能实现,内置了大量的库,主要有几种类型。下面本篇文章就来给大家介绍。
一、Python爬虫网络库
Python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。
二、Python网络爬虫框架
Python网络爬虫框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。
三、HTML/XML解析器?
● lxml:C语言编写高效HTML/ XML处理库。支持XPath。
● cssselect:解析DOM树和CSS选择器。
● pyquery:解析DOM树和jQuery选择器。
● BeautifulSoup:低效HTML/ XML处理库,纯Python实现。
● html5lib:根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。
● feedparser:解析RSS/ATOM feeds。
● MarkupSafe:为XML/HTML/XHTML提供了安全转义的字符串。
● xmltodict:一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。
● xhtml2pdf:将HTML/CSS转换为PDF。
● untangle:轻松实现将XML文件转换为Python对象。
四、文本处理
用于解析和操作简单文本的库。
● difflib:(Python标准库)帮助进行差异化比较。
● Levenshtein:快速计算Levenshtein距离和字符串相似度。
● fuzzywuzzy:模糊字符串匹配。
● esmre:正则表达式加速器。
● ftfy:自动整理Unicode文本,减少碎片化。
五、特定格式文件处理
解析和处理特定文本格式的库。
● tablib:一个把数据导出为XLS、CSV、JSON、YAML等格式的模块。
● textract:从各种文件中提取文本,比如 Word、PowerPoint、PDF等。
● messytables:解析混乱的表格数据的工具。
● rows:一个常用数据接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT:将来还会提供更多!)。
以上就是Python写爬虫都用到什么库的详细内容。
内容总结
以上是互联网集市为您收集整理的Python写爬虫都用到什么库全部内容,希望文章能够帮你解决Python写爬虫都用到什么库所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。