python编写爬虫小程序

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python编写爬虫小程序，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1486字，纯文字阅读大概需要3分钟。

内容图文

起因

深夜忽然想下载一点电子书来扩充一下kindle，就想起来python学得太浅，什么“装饰器”啊、“多线程”啊都没有学到。
想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载，结果居然没找到！！CSDN有个不完整的还骗走了我一个积分！！尼玛！！
怒了，准备写个程序直接去爬廖雪峰的教程，然后再html转成电子书。

过程

过程很有趣呢，用浅薄的python知识，写python程序，去爬python教程，来学习python。想想有点小激动……
果然python很是方便，50行左右就OK了。直接贴代码：

# coding:utf-8
import urllib

domain = 'http://www.liaoxuefeng.com'      #廖雪峰的域名
path = r'C:\Users\cyhhao2013\Desktop\temp\\'  #html要保存的路径

# 一个html的头文件
input = open(r'C:\Users\cyhhao2013\Desktop\0.html', 'r')
head = input.read()

# 打开python教程主界面
f = urllib.urlopen("http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000")
home = f.read()
f.close()

# 替换所有空格回车（这样容易好获取url）
geturl = home.replace("\n", "")
geturl = geturl.replace(" ", "")

# 得到包含url的字符串
list = geturl.split(r'em;">')

# 开始遍历url List
for li in list:
  url = li.split(r'">')[0]
  url = domain + url       #拼凑url
  print url
  f = urllib.urlopen(url)
  html = f.read()

  # 获得title为了写文件名
  title = html.split("")[1]
  title = title.split(" - 廖雪峰的官方网站")[0]

  # 要转一下码，不然加到路径里就悲剧了
  title = title.decode('utf-8').replace("/", " ")

  # 截取正文
  html = html.split(r'')[1]
  html = html.split(r'您的支持是作者写作最大的动力！')[0]
  html = html.replace(r'src="', 'src="' + domain)

  # 加上头和尾组成完整的html
  html = head + html+"

内容总结

以上是互联网集市为您收集整理的python编写爬虫小程序全部内容，希望文章能够帮你解决python编写爬虫小程序所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/434010.html

来源：【匿名】

【上一篇】python妹子图简单爬虫实例【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python编写爬虫小程序】教程文章相关的互联网学习教程文章

（1）爬取豆瓣电影Top250https://blog.csdn.net/fighting_no1/article/details/50926008（2）爬虫博客 https://cuiqingcai.com/?s=%E7%88%AC%E8%99%ABpre.ctl { font-family: "Liberation Mono", monospace } p { margin-bottom: 0.1in; line-height: 120% } a:link { } 原文：https://www.cnblogs.com/cekong/p/9968925.html

python爬虫编写英译中小程序【代码】【图】

1.选择一个翻译页面，我选择的是有道词典（http://dict.youdao.com）2.随便输入一个英语单词进行翻译，然后查看源文件，找到翻译后的内容所在的位置，看它在什么标签里3.开始编写程序（1）首先引入requests库跟BeautifulSoup库（2）更改请求头，防止被页面发现是爬虫，可以在审查元素里找（3）确定URL，在有道是 http://dict.youdao.com/w/%s/#keyfrom=dict2.top（4）开始写简单的程序，主要内容就三行第一步：r = requests.get(ur...

python编写爬虫小程序

起因深夜忽然想下载一点电子书来扩充一下kindle，就想起来python学得太浅，什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载，结果居然没找到！！CSDN有个不完整的还骗走了我一个积分！！尼玛！！怒了，准备写个程序直接去爬廖雪峰的教程，然后再html转成电子书。过程过程很有趣呢，用浅薄的python知识，写python程序，去爬python教程，来学习python。想想有点...

pythoy超级超级超级简单的一个爬虫小程序_html/css_WEB-ITnose

首次接触爬虫，这个程序可以让初学者明白爬虫是啥，爬虫的基本逻辑。（参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚，感兴趣的选手可以去看看）被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在网址后面输入显示的数字转入下一个网址，再次读取显示的数字，转入下一个网址，以此循环爬虫要求在爬虫的时候需要需要用到两个库，一个urllib，...

爬虫之小程序某日优鲜msgin破解1【代码】【图】

小程序爬虫首先声明：本文章仅供学习之用，不可它用一、前言反编译，其实还是简单的，要想拿到微信小程序源码，找到源文件在手机存放的位置就行，源文件拿到，用反编译脚本程序跑一下，微信小程序代码包里的所有文件、所有资源就出来了（除了project.config.json小程序配置文件）。小程序分为主包和分包二、所需工具 1.nodejs运行环境，这是反编译脚本所需运行环境。 2.安装手机模拟器（用于下载微信小程序包）和文件管理器 3....

【Fidder网络抓包+Python爬虫】下载微信小程序视频【代码】【图】

首先声明本篇博客以学习为目的，侵权即删。文章目录 1. Fidder抓包1.1 在电脑上打开微信小程序视频播放页以及Fidder软件1.2 点击视频播放按钮，并查看Fidder抓到的数据包 2. Python爬虫2.1 视频下载2.2 视频合并2.3 完整代码 3. 写在最后 1. Fidder抓包关于fidder软件的安装和配置，这里我就不多赘述了，大家上网都很容易搜到。 1.1 在电脑上打开微信小程序视频播放页以及Fidder软件1.2 点击视频播放按钮，并查看Fidder抓...

爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法【代码】【图】

文章目录第二十一章 crawlspider讲解1. 古诗文案例crawlspider1.1 需求1.2 处理1.3 解析 2. 小程序社区案例2.1 创建项目2.2 项目配置2.3 解析详情页的数据 3. 汽车之家案例（二进制数据爬取）3.1 创建项目3.2 项目配置3.3 定位图片3.4 配置settings3.5 创建开始文件3.6 打开管道3.7 在管道中操作3.8 图片存储路径代码解释3.9 解决报错问题3.10 翻页 4. 其他方法爬取图片4.1 在items文件中创建两个字段4.2 导入items文件中的类并在...

爬虫小程序（爬取英雄联盟的英雄皮肤）【代码】【图】

一、爬虫流程： 1、明确目标：url = https://daoju.qq.com/lol/list/17-0-0-0-0-0-0-0-0-0-0-00-0-0-1-1.shtml?ADTAG=innercop.lol.SY.shoppinglist_new_17 2、判断数据类型：动态/静态（这里是动态类型，是通过JS渲染的）备注：如何来判断数据类型？是通过源码来判断的，如果网页源码中可以找到我们需要爬取的数据，那么就代表是静态，可以通过访问网页后结合正则就可以获取数据， ...

爬虫小程序之爬取西刺免费高匿IP构建代理池【代码】

反爬机制很多，其中一种便是web服务器通过记录IP访问服务器的频率来判断该IP地址是否为爬虫IP，为了避免IP被封，同时可以提高爬取数据的稳定性，可以通过第三方IP地址发起请求，为了后期数据爬取的稳定性，可以构建自己的代理池，本程序是通过爬取西刺代理网站里的免费高匿IP，构建后期工作所需的IP代理池工具包，具体程序如下：注：1>高匿：高度匿名，web服务器只能看到代理IP地址，无法看到客户自身地址，更无法识别是否使用代理...

爬虫小程序之爬取百度贴吧图片【代码】

利用Python第三方库请求库requests和解析库lxml等工具爬取百度贴吧任意贴吧名里的所有图片：要求如下：1、.编程范式------面向对象2、采取简单的反反爬措施：如请求时间不宜过于频繁、请求头中的User-Agent要隐藏爬取工具且随机随机生成User-Agent规避反爬3、只爬取吧主发布的图片，其他图片禁止爬取代码如下：import requests from lxml import etree import os import time from fake_useragent import UserAgent import warni...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python编写爬虫小程序

python编写爬虫小程序

内容导读

内容图文

您的支持是作者写作最大的动力！

内容总结

内容备注

内容手机端

【python编写爬虫小程序】教程文章相关的互联网学习教程文章

爬虫小程序【代码】

python爬虫编写英译中小程序【代码】【图】

python编写爬虫小程序

pythoy超级超级超级简单的一个爬虫小程序_html/css_WEB-ITnose

爬虫之小程序某日优鲜msgin破解1【代码】【图】

【Fidder网络抓包+Python爬虫】下载微信小程序视频【代码】【图】

爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法【代码】【图】

爬虫小程序（爬取英雄联盟的英雄皮肤）【代码】【图】

爬虫小程序之爬取西刺免费高匿IP构建代理池【代码】

爬虫小程序之爬取百度贴吧图片【代码】

PYTHON - 相关标签

爬虫 - 相关标签

程序 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程