首页 / PYTHON / python基础教程项目四之新闻聚合

python基础教程项目四之新闻聚合

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python基础教程项目四之新闻聚合，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3928字，纯文字阅读大概需要6分钟。

内容图文

这篇文章主要为大家详细介绍了python基础教程项目四之新闻聚合，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

《python基础教程》书中的第四个练习，新闻聚合。现在很少见的一类应用，至少我从来没有用过，又叫做Usenet。这个程序的主要功能是用来从指定的来源（这里是Usenet新闻组）收集信息，然后讲这些信息保存到指定的目的文件中（这里使用了两种形式：纯文本和html文件）。这个程序的用处有些类似于现在的博客订阅工具或者叫RSS订阅器。

先上代码，然后再来逐一分析：

from nntplib import NNTP
from time import strftime,time,localtime
from email import message_from_string
from urllib import urlopen
import textwrap
import re
day = 24*60*60
def wrap(string,max=70):
    '''
    '''
    return '\n'.join(textwrap.wrap(string)) + '\n'
class NewsAgent:
    '''
    '''
    def __init__(self):
        self.sources = []
        self.destinations = []
    def addSource(self,source):
        self.sources.append(source)
    def addDestination(self,dest):
        self.destinations.append(dest)
    def distribute(self):
        items = []
        for source in self.sources:
            items.extend(source.getItems())
        for dest in self.destinations:
            dest.receiveItems(items)
class NewsItem:
    def __init__(self,title,body):
        self.title = title
        self.body = body
class NNTPSource:
    def __init__(self,servername,group,window):
        self.servername = servername
        self.group = group
        self.window = window
    def getItems(self):
        start = localtime(time() - self.window*day)
        date = strftime('%y%m%d',start)
        hour = strftime('%H%M%S',start)
        server = NNTP(self.servername)
        ids = server.newnews(self.group,date,hour)[1]
        for id in ids:
            lines = server.article(id)[3]
            message = message_from_string('\n'.join(lines))
            title = message['subject']
            body = message.get_payload()
            if message.is_multipart():
                body = body[0]
            yield NewsItem(title,body)
        server.quit()
class SimpleWebSource:
    def __init__(self,url,titlePattern,bodyPattern):
        self.url = url
        self.titlePattern = re.compile(titlePattern)
        self.bodyPattern = re.compile(bodyPattern)
    def getItems(self):
        text = urlopen(self.url).read()
        titles = self.titlePattern.findall(text)
        bodies = self.bodyPattern.findall(text)
        for title.body in zip(titles,bodies):
            yield NewsItem(title,wrap(body))
class PlainDestination:
    def receiveItems(self,items):
        for item in items:
            print item.title
            print '-'*len(item.title)
            print item.body
class HTMLDestination:
    def __init__(self,filename):
        self.filename = filename
    def receiveItems(self,items):
        out = open(self.filename,'w')
        print >> out,'''
        <html>
        <head>
         <title>Today's News</title>
        </head>
        <body>
        <h1>Today's News</hi>
        '''
        print >> out, '<ul>'
        id = 0
        for item in items:
            id += 1
            print >> out, '<li><a href="#" rel="external nofollow" >%s</a></li>' % (id,item.title)
        print >> out, '</ul>'
        id = 0
        for item in items:
            id += 1
            print >> out, '<h2><a name="%i">%s</a></h2>' % (id,item.title)
            print >> out, '<pre>%s</pre>' % item.body
        print >> out, '''
        </body>
        </html>
        '''
def runDefaultSetup():
    agent = NewsAgent()
    bbc_url = 'http://news.bbc.co.uk/text_only.stm'
    bbc_title = r'(?s)a href="[^" rel="external nofollow" ]*">\s*<b>\s*(.*?)\s*</b>'
    bbc_body = r'(?s)</a>\s*<br/>\s*(.*?)\s*<'
    bbc = SimpleWebSource(bbc_url, bbc_title, bbc_body)
    agent.addSource(bbc)
    clpa_server = 'news2.neva.ru'
    clpa_group = 'alt.sex.telephone'
    clpa_window = 1
    clpa = NNTPSource(clpa_server,clpa_group,clpa_window)
    agent.addSource(clpa)
    agent.addDestination(PlainDestination())
    agent.addDestination(HTMLDestination('news.html'))
    agent.distribute()
if __name__ == '__main__':
    runDefaultSetup()

这个程序，首先从整体上进行分析，重点部分在于NewsAgent，它的作用是存储新闻来源，存储目标地址，然后在分别调用来源服务器（NNTPSource以及SimpleWebSource）以及写新闻的类（PlainDestination和HTMLDestination）。所以从这里也看的出，NNTPSource是专门用来获取新闻服务器上的信息的，SimpleWebSource是获取一个url上的数据的。而PlainDestination和HTMLDestination的作用很明显，前者是用来输出获取到的内容到终端的，后者是写数据到html文件中的。

有了这些分析，然后在来看主程序中的内容，主程序就是来给NewsAgent添加信息源和输出目的地址的。

这确实是个简单的程序，不过这个程序可是用到了分层了。

以上就是python基础教程项目四之新闻聚合的详细内容，更多请关注Gxl网其它相关文章！

内容总结

以上是互联网集市为您收集整理的python基础教程项目四之新闻聚合全部内容，希望文章能够帮你解决python基础教程项目四之新闻聚合所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/429555.html

来源：【匿名】

【上一篇】Python常用PEP8规范及Python小把戏【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python基础教程项目四之新闻聚合】教程文章相关的互联网学习教程文章

Python基础教程【读书笔记】 - 2016/7/19

希望通过博客园持续的更新，分享和记录Python基础知识到高级应用的点点滴滴！第八波：第4章字典：当索引不好用时　　将学到一种通过名字引用值的数据结构，这种结构类型称为映射mapping。字典是Python内唯一内建的映射类型。字典中的值并没有特殊的顺序，都是存储在一个特定的键key里。键可以使数字、字符串甚至是元组。[4.1] 字典的使用　　字典有时比列表更加使用。[4.2] 创建和使用字典　　　　字典由多个键及其对应的值构成...

python开发基础教程

第一：python基础第二：python异常处理类第三：python装饰器第四：python发送邮件原文：https://www.cnblogs.com/fengjunhua/p/8874273.html

《python基础教程（第二版）》学习笔记函数（第6章）

《python基础教程（第二版）》学习笔记函数（第6章）创建函数：def function_name(params): block return values记录函数：def function_name(params): ‘NOTE‘ #注释 block return valuesfunction_name.__doc__help(function_name)return # 没有返回值位置参数和关键字参数：关键字参数要提供参数的名字：def function_name(name1=value1, name2=value2): #给参数提供了默认值 block return values让用户提供任意数量的参...

《Python基础教程》第三章：使用字符串【代码】

find方法可以在一个较长的字符串中查找子字符串。它返回子串所在位置的最左端索引。如果没有找到则返回-1join方法用来在队列中添加元素，需要添加的队列元素都必须是字符串 >>> ‘+‘.join(seq) lower方法返回字符串的小写字母版replace方法返回某字符串的所有匹配项均被替换之后得到的字符串 >>> ‘This is a test‘.replace(‘is‘, ‘ezz‘) split方法用来将字符串分割成序列。如果不提供任何分隔符，程序会把所有空格作为分隔符...

python基础教程学习笔记---(4)字典【图】

序列是python中的一种数据结构，映射是另一种。映射（mapping）通过名字来引用值。python内建的唯一一种映射结构是字典。字典中的值没有特殊的顺序，但都存储在一个特定的键中。键可以是数字、字符串甚至数元组。1、字典的使用:序列通过索引来找到元素的取值。字典通过键来获取它的值。字段比列表在某些方面更加适用：①游戏棋盘是用坐标值来组成的②文件是用文件名来确定的③数字电话，地址对应一个联系人这些都不能通过索引来代替...

python基础教程之实现石头剪刀布游戏示例

下面是规则.你和你的对手,在同一时间做出特定的手势,必须是下面一种手势:石头,剪子,布.胜利者从下面的规则中产生,这个规则本身是个悖论.(a) 布包石头.(b)石头砸剪子,(c)剪子剪破布.在你的计算机版本中,用户输入她/他的选项,计算机找一个随机选项,然后由你的程序来决定一个胜利者或者平手.注意:最好的算法是尽量少的使用 if 语句复制代码代码如下:#coding:utf-8 import randomguess_list = ["石头","剪刀","布"]guize = [["布","石...

《Python基础教程》读书笔记第六章抽象函数参数

6.1创建函数函数是可以调用(可能包含参数，也就是放在圆括号中的值)，它执行某种行为并且返回一个值。一般来说，内建的callable函数可以用来判断函数是否可调用:>>> x=1>>> y=math.sqrt>>> callable(x)False>>> callable(y)True定义函数用def 语句：def fib(num): result=[0,1] for i in range(num-2): result.append(result[-2]+result[-1]) return result6.1.1记录函数给函数添加文档字符串:>>> def square(x):...

Python基础教程之第2章列表和元组

D:\>python Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. #2.1序列概览 >>> edward=['Edward Gumby', 42] >>> john=['John Smith',50] >>> database=[edward,john] >>> database [['Edward Gumby', 42], ['John Smith', 50]] #2.2通用序列操作 #2.2.1索引 #代码清单2-1索引演示样例 >>> greeting='Hello' >>> gr...

《Python基础教程》第6~8章学习笔记【代码】

Python 6-8章tags: Python LearningNote 第6章抽象6.3 创建函数 1. `callabel()`可以测试函数能否调用。（返回True/False）（3.0得用`hasattr(func, __cal__)`代替） 2. 使用`def`语句定义函数 6.3.1 记录函数直接写上字符串，比如在def语句后面，称为文档字符串。可以使用内建help得到关于函数的信息，包括文档字符串。6.3.2 并非真正函数的函数return起到结束函数的作用。6.4 参数魔法这正是Python的魅力所在！6.4.1 值从...

《python基础教程（第二版）》学习笔记字典（第4章）

《python基础教程（第二版）》学习笔记字典（第4章）创建字典：d={‘key1‘:‘value1‘,‘key2‘:‘value2‘}lst=[(‘key1‘,‘value1‘),(‘key2‘,‘value2‘)]; d=dict(lst)d=dict(key1=‘value1‘, key2=‘value2‘)字典基本操作：d={‘key1‘:‘value1‘,‘key2‘:‘value2‘}; len(d) ==> 2 #字典中的键值对数量d={‘key1‘:‘value1‘,‘key2‘:‘value2‘}; d[‘key1‘] ==> ‘value1‘ # 键为k的值d={‘key1‘:‘value1‘...

python基础教程(第2版)第二章读后总结；【代码】【图】

python第二章序列是一种数据结构：典型的序列包括：列表，字符串，元组数据结构是通过某种方式（例如对元素进行编号）组织在一起的数据元素的集合，这些数据元素可以是数字或者字符，甚至可以是其他数据结构，在python中，最近本的数据结构是序列，序列中的每个元素被分配一个序号-----即元素的位置，也成为索引，第一个索引是0，第二个则是1，以此类推。列表和元组的主要区别：列表可以修改，元组则不能，但他们都统称为序列...

Python基础教程笔记——第2章：列表和元组

python shell 里重复上一次的命令：Alt+p2.3 列表：Python的苦力（1）list函数（2）列表赋值，不蹦蹦为一个元素不存在的位置赋值（3）删除元素，del name[1] （4）分片赋值，name[2:]=list(‘ar‘) 列表方法：对象.方法（参数）（1）a.append(6) 在列表末尾添加新的对象（2）a.count("dh") 统计元素在列表中出现的次数（3）a.extend(b) 可以在列表的末尾一次性追加多个值 ...

Python基础教程—2019/1/29

2019/1/29 // 整除** 乘方0x 十六进制 0b 二进制 0o八进制常用模块和函数1：pow() 乘方>> pow(2,3)8>> 2**38>>2：abs() 绝对值3：round() 向最接近的那个数取整，如果一样，向偶数取整>> round(2/3)1>>4：math库的floor（）函数，向下取整>> import math>> math.floor(32.9)32>>5：math库的ceil()向上取整>> math.ceil(32.9)33>> math.ceil(33)33>>6：sqrt()开平方根>> math.sqrt(9)3.0>>导入方式2：>> from math import ceil>>...

python基础教程第二章【代码】

1、序列基础序列：python包含6种内建的序列，常用的有：列表、元组、字符串。列表可以修改，元组和字符串不能修改。索引：从0开始递增，通过索引获取元素；可使用负数索引，从右至左。最后1个元素的位置编号为-1；s = ‘hello‘ print(s[-1])print(s[5]) // error：不能通过索引获取不存在的元素；fourth = input(‘Year: ‘)[3] print(fourth) 切片：访问一定范围内的元素，返回新的序列，原序列不变；通过冒号来隔开两个索引。...

python基础教程之常用运算符

Python的运算符和其他语言类似（我们暂时只了解这些运算符的基本用法，方便我们展开后面的内容，高级应用暂时不介绍）数学运算复制代码代码如下: >>>print 1+9 # 加法 >>>print 1.3-4 # 减法>>>print 3*5 # 乘法>>>print 4.5/1.5 # 除法>>>print 3**2 # 乘方 >>>print 10%3 # 求余数判断判断是真还是假，返回True/False复制代码代码如下: >>>print 5==6 # =，相等 >>>print...

首页 / PYTHON / python基础教程项目四之新闻聚合

python基础教程项目四之新闻聚合

内容导读

内容图文

内容总结

内容备注

内容手机端

【python基础教程项目四之新闻聚合】教程文章相关的互联网学习教程文章

Python基础教程【读书笔记】 - 2016/7/19

python开发基础教程

《python基础教程（第二版）》学习笔记函数（第6章）

《Python基础教程》第三章：使用字符串【代码】

python基础教程学习笔记---(4)字典【图】

python基础教程之实现石头剪刀布游戏示例

《Python基础教程》读书笔记第六章抽象函数参数

Python基础教程之第2章列表和元组

《Python基础教程》第6~8章学习笔记【代码】

《python基础教程（第二版）》学习笔记字典（第4章）

python基础教程(第2版)第二章读后总结；【代码】【图】

Python基础教程笔记——第2章：列表和元组

Python基础教程—2019/1/29

python基础教程第二章【代码】

python基础教程之常用运算符

PYTHON - 相关标签

聚合 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程