首页 / PYTHON / Python通过解析网页实现看报程序的方法

Python通过解析网页实现看报程序的方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python通过解析网页实现看报程序的方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3366字，纯文字阅读大概需要5分钟。

内容图文

本文所述实例可以实现基于Python的查看图片报纸《参考消息》并将当天的图片报纸自动下载到本地供查看的功能，具体实现代码如下：

# coding=gbk
import urllib2
import socket
import re
import time
import os

# timeout in seconds
#timeout = 10
#socket.setdefaulttimeout(timeout)
timeout = 10
urllib2.socket.setdefaulttimeout(timeout)

home_url = "http://www.hqck.net"
home_page = ""
try:
  home_page_context = urllib2.urlopen(home_url)
  home_page = home_page_context.read()

  print "Read home page finishd."
  print "-------------------------------------------------"
except urllib2.URLError,e:
  print e.code
  exit()
except:
  print e.code
  exit()

reg_str = r'<span class.+>.+'

news_url_reg = re.compile(reg_str)

today_cankao_news = news_url_reg.findall(home_page)

if len(today_cankao_news) == 0:
  print "Cannot find today's news!"
  exit()

my_news = today_cankao_news[0]
print "Latest news link = " + my_news
print

url_s = my_news.find("/arc/")
url_e = my_news.find(".html")
url_e = url_e + 5

print "Link index = [" + str(url_s) + "," + str(url_e) + "]"
my_news = my_news[url_s:url_e]
print "part url = " + my_news

full_news_url = home_url + my_news
print "full url = " + full_news_url
print

image_folder = "E:\\new_folder\\"

if (os.path.exists(image_folder) == False):
  os.makedirs(image_folder)
today_num = time.strftime('%Y-%m-%d',time.localtime(time.time()))
image_folder = image_folder + today_num + "\\"
if (os.path.exists(image_folder) == False):
  os.makedirs(image_folder)
print "News image folder = " + image_folder
print

context_uri = full_news_url[0:-5]

first_page_url = context_uri + ".html"
try:
  first_page_context = urllib2.urlopen(first_page_url)
  first_page = first_page_context.read()
except urllib2.HTTPError, e:
  print e.code
  exit()

tot_page_index = first_page.find("共")
tot_page_index = tot_page_index

tmp_str = first_page[tot_page_index:tot_page_index+10]
end_s = tmp_str.find("页")

page_num = tmp_str[2:end_s]
print page_num

page_count = int(page_num)
print "Total " + page_num + " pages:"
print

page_index = 1
download_suc = True
while page_index <= page_count:
  page_url = context_uri
  if page_index > 1:
    page_url = page_url + "_" + str(page_index)
  page_url = page_url + ".html"
  print "News page link = " + page_url

  try:
    news_img_page_context = urllib2.urlopen(page_url)
  except urllib2.URLError,e:
    print e.reason
    download_suc = False
    break
  
  news_img_page = news_img_page_context.read()

  #f = open("e:\\page.html", "w")
  #f.write(news_img_page)
  #f.close()

  reg_str = r'http://image\S+jpg'
  image_reg = re.compile(reg_str)
  image_results = image_reg.findall(news_img_page)
  if len(image_results) == 0:
    print "Cannot find news page" + str(page_index) + "!"
    download_suc = False
    break
  
  image_url = image_results[0]

  print "News image url = " + image_url
  news_image_context = urllib2.urlopen(image_url)

  image_name = image_folder + "page_" + str(page_index) + ".jpg"
  imgf = open(image_name, 'wb')
  print "Getting image..."
  try:
    while True:
      date = news_image_context.read(1024*10)
      if not date:
        break
      imgf.write(date)
    imgf.close()
  except:
    download_suc = False
    print "Save image " + str(page_index) + " failed!"
    print "Unexpected error: " + sys.exc_info()[0] + sys.exc_info()[1]
  else:
    print "Save image " + str(page_index) + " succeed!"
    print
  page_index = page_index + 1

if download_suc == True:
  print "News download succeed! Path = \"" + str(image_folder) + "\""
  print "Enjoy it! ^^"
else:
  print "news download failed!"

内容总结

以上是互联网集市为您收集整理的Python通过解析网页实现看报程序的方法全部内容，希望文章能够帮你解决Python通过解析网页实现看报程序的方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/433017.html

来源：【匿名】

【上一篇】TornadoWeb服务器多进程启动的2个方法【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python通过解析网页实现看报程序的方法】教程文章相关的互联网学习教程文章

[Python]HTML/XML解析器Beautiful Soup

【简介】Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。即HTML/XMLX的解析器。它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。【安装】下载地址：点击打开链接Linux平台安装：如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:$ apt-get install Python-bs4Beautiful Soup 4 通过P...

十七、python沉淀之路--三元表达式、列表解析【代码】

一、三元表达式1 a = ‘骑车‘23 res = ‘好天气‘if a == ‘骑车‘else‘睡觉‘4print(res)1 睡觉解析：res = ‘好天气‘ if a == ‘骑车‘ else ‘睡觉‘ ，将一个句子分了三部分。简单的逻辑运算可用这种三元表达式二、列表解析 1 gift_list = []2for i in range(10):3 gift_list.append(‘礼盒%s‘%i)4print(gift_list)5 6 gift_list1 = [‘礼盒%s‘%i for i in range(10)]7print(gift_list1)8 9 gift_...

python之列表解析与生成器【代码】

防伪码：忘情公子著什么是列表解析？列表解析就是根据已有列表，高效生成新列表的方式列表解析是python迭代机制的一种应用，它常用于实现创建新的列表，因此要放置于[]中语法：[expression for iter_var in iterable][expression for iter_var in iterable if cond_expr]例：In [1]: L = [i**2 for i in xrange(9)]In [2]: print L[0, 1, 4, 9, 16, 25, 36, 49, 64]假设现在有一个列表list1，需要取得列表list1中每一个元素的平方...

Python爬虫_三种数据解析方式【代码】

正则解析单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W : 非\w\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S : 非空白数量修饰：* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} ：固定m次 hello{3,}{m,} ：至少m次{m,n} ：m-n次边界：$ : 以某某结尾 ^ : 以某某开头分组：(ab) 贪婪模式：...

python解析json文件【代码】

cat t.jo{ "name":"test", "type":"kkk", "ppp":{"parate":[1,2]} }或者加个数组t2.jo： [ {"name":"test","type":"kkk","ppp":{"parate":[1,2]}}, {"name":"ppp"} ]2.解析t.joimport json In [61]: s=json.loads(‘{"name":"kkk","type":"ppp"}‘) In [62]: s[‘name‘] Out[62]: u‘kkk‘ -------------t.jo f=file(‘t.jo‘) s=json.load(file(f)) 或者 s=json.load(file("t.jo")) print s[‘name‘] print s[ppp][‘para...

python"TypeError: 'NoneType' object is not iterable"错误解析【代码】

尊重原创博主，原文链接：https://blog.csdn.net/dataspark/article/details/9953225【解析】一般是函数返回值为None，并被赋给了多个变量。实例看下：c=0def test():if c == 1:a = b = 1return a, ba, b = test() 使用 a, b = test()调用时，就会报错：TypeError: ‘NoneType‘ object is not iterable在Python判断语句中，当if条件不满足并且没有else的时候就会返回None，就算是没有return 也会默认返回None本例中a，b 都赋予...

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据【代码】

目标：爬取安居客网站上前10页北京二手房的数据，包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为：https://beijing.anjuke.com/sale/BeautifulSoup官网：https://www.crummy.com/software/BeautifulSoup/直接上代码：import requests from bs4 import BeautifulSoupheaders={‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0....

python 全栈 linux基础（部分）网络 SSH 更名 DNS解析元字符

nginx---> web ifconfig 查看网络配置信息id add show 查看当前网卡信息（最小安装下）mtu 是指网卡传输的最大单元单位：字节网卡配置临时配置ifconfig 网卡名 IP地址/子网DNS：vim /etc/resolv.conf网关：(填加)route add default gw 网关 netmask 255.255.255.0（删除）route del default gw 网关 netmask 255.255.255.0查看配置：route -n重启网卡：systemctl restart network永久配置cd /etc/sysconfig/network-scripts/vim...

python3实现二叉树的遍历与递归算法解析【代码】【图】

1、二叉树的三种遍历方式二叉树有三种遍历方式：先序遍历，中序遍历，后续遍历即：先中后指的是访问根节点的顺序 eg:先序根左右中序左根右后序左右根　　遍历总体思路：将树分成最小的子树，然后按照顺序输出　　1.1 先序遍历　　　　a 先访问根节点　　　　b 访问左节点　　　　c 访问右节点　　　　a（b ( d ( h ) )( e ( i ) )）( c ( f )( g )) -- abdheicfg 　　1.2 中序遍历　...

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

转自：http://blog.csdn.net/pleasecallmewhy/article/details/8934726百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后u...

python 简易购物车程序解析【代码】

购物车程序需求：用户信息为：{‘wyf‘:{‘password‘: ‘12‘, ‘role‘: ‘2‘, ‘money‘: ‘100000‘, ‘carts‘: [‘iphone6‘, ‘mi5‘]},‘fei‘: {‘password‘: ‘12‘, ‘role‘: ‘2‘, ‘money‘: ‘100000‘, ‘carts‘: [‘iphone6‘, ‘mi5‘]}}用户角色role：1代表管理员，2，代表普通用户普通用户的权限有：1.查看所有商品；2.输入商品名称购买商品，购买后加入到购物车里面，钱要减去.购买后的商品追加到购物车里...

python解析xml并按照其结构输出【图】

平时写代码需要将一个xml文件按照其结构，将每个节点列出来，如:<root><person age="18"><name>hzj</name><sex>man</sex></person><person age="19" des="hello"><name>kiki</name><sex>female</sex></person> </root>就需要这样表示:{"root"};{"root","person"};{"root","person","name"};{"root","person","sex"}.....将所有节点这样写出来,为了图简单，直接写了一个脚本解析了下.python有三种方法解析XML，SAX，DOM，以及Elemen...

使用由 Python 编写的 lxml 实现高性能 XML 解析

lxml 简介Python 从来不出现 XML 库短缺的情况。从 2.0 版本开始，它就附带了 xml.dom.minidom 和相关的 pulldom 以及 Simple API for XML (SAX) 模块。从 2.4 开始，它附带了流行的 ElementTree API。此外，很多第三方库可以提供更高级别的或更具有 python 风格的接口。尽管任何 XML 库都足够处理简单的 Document Object Model (DOM) 或小型文件的 SAX 解析，但开发人员越来越多碰到更加大型的数据集，以及在 Web 服务上下文中实时...

python实现的解析crontab配置文件代码【代码】

#/usr/bin/env python #-*- coding:utf-8 -*-""" 1.解析 crontab 配置文件中的五个数间参数(分时日月周)，获取他们对应的取值范围 2.将时间戳与crontab配置中一行时间参数对比，判断该时间戳是否在配置设定的时间范围内 """#$Id $import re, time, sys from Core.FDateTime.FDateTime import FDateTimedef get_struct_time(time_stamp_int):"""按整型时间戳获取格式化时间分时日月周Args:time_stamp_int 为传入的值为时间...

全面解析Python的While循环语句的使用方法【代码】

Python 编程中 while 语句用于循环执行程序，即在某条件下，循环执行某段程序，以处理需要重复处理的相同任务。其基本形式为： while 判断条件：执行语句…… 执行语句可以是单个语句或语句块。判断条件可以是任何表达式，任何非零、或非空（null）的值均为true。当判断条件假false时，循环结束。执行流程图如下：实例： #!/usr/bin/pythoncount = 0 while (count < 9):print ‘The count is:‘, countcount = count + 1print "...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python通过解析网页实现看报程序的方法

Python通过解析网页实现看报程序的方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python通过解析网页实现看报程序的方法】教程文章相关的互联网学习教程文章

[Python]HTML/XML解析器Beautiful Soup

十七、python沉淀之路--三元表达式、列表解析【代码】

python之列表解析与生成器【代码】

Python爬虫_三种数据解析方式【代码】

python解析json文件【代码】

python"TypeError: 'NoneType' object is not iterable"错误解析【代码】

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据【代码】

python 全栈 linux基础（部分）网络 SSH 更名 DNS解析元字符

python3实现二叉树的遍历与递归算法解析【代码】【图】

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

python 简易购物车程序解析【代码】

python解析xml并按照其结构输出【图】

使用由 Python 编写的 lxml 实现高性能 XML 解析

python实现的解析crontab配置文件代码【代码】

全面解析Python的While循环语句的使用方法【代码】

PYTHON - 相关标签

程序 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程