首页 / PYTHON / 【python】抄写大神的百度贴吧代码

【python】抄写大神的百度贴吧代码

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【python】抄写大神的百度贴吧代码，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3637字，纯文字阅读大概需要6分钟。

内容图文

原文链接：http://cuiqingcai.com/993.html

划重点：

　　1.提取帖子内容时，对图片，贴吧自动增加的超链接，制表符，换行符要做删除或替换处理

　　2.decode是把bytes转换为str, encode是把str转换为bytes 原帖中的代码第100行多了一个encode,导致出错

　　3.代码中用到了文件相关操作

　　4.原文中获取标题的正则表达式我觉得不太对，做了修改。原文只是提取了<h1></h1>直接的，但实际上有在<h3></h3>直接的

最终代码如下，在python3.4.3中实现

            import
             urllib.request

            import
             urllib.parse

            import
             re


            #
            处理页面标签类
            class
             Tool:
    
            #
            去除img标签，7位长空格
    removeImg = re.compile(‘<img.*?>| {7}‘)
    #删除超链接标签
    removeAddr = re.compile(‘<a.*?>|</a>‘)
    #把换行的标签换为\n
    replaceLine = re.compile(‘<tr>|<div>|</div>|</p>‘)
    #将表格制表<td>替换为\t
    replaceTD = re.compile(‘<td>‘)
    #把段落开头换为\n加空两格
    replacePara = re.compile(‘<p.*?>‘)
    #将换行符或双换行符替换为\n
    replaceBR = re.compile(‘<br><br>|<br>‘)
    #将其余标签剔除
    removeExtraTag = re.compile(‘<.*?>‘)
    def replace(self, x):
        x = re.sub(self.removeImg, "", x)
        x = re.sub(self.removeAddr, "", x)
        x = re.sub(self.replaceLine, "\n", x)
        x = re.sub(self.replaceTD, "\t", x)
        x = re.sub(self.replacePara, "\n    ", x)
        x = re.sub(self.replaceBR, "\n", x)
        x = re.sub(self.removeExtraTag, "", x)
        return x.strip()

#百度贴吧爬虫类class BDTB:
    #初始化，传入基地址，是否只看楼主的参数def__init__(self, baseUrl, seeLZ,floorTag):
        self.baseURL = baseUrl
        self.seeLZ = ‘?see_lz=‘+str(seeLZ)
        self.tool = Tool()
        self.file = None
        self.floor = 1
        self.defaultTitle = u"百度贴吧"
        self.floorTag = floorTag
    #传入页码，获取该页帖子的代码def getPage(self, pageNum):
        try:
            url = self.baseURL+self.seeLZ+‘&pn=‘+str(pageNum)
            request = urllib.request.Request(url)
            response = urllib.request.urlopen(request)
            return response.read().decode(‘utf-8‘,‘ignore‘) #注意转换成字符串except urllib.error.URLError as e:
            if hasattr(e, "reason"):
                print(u"连接百度贴吧失败，错误原因：", e.reason)
                return None
    #获取帖子标题def getTitle(self):
        pageCode = self.getPage(1)
        pattern = re.compile(‘‘‘<h\d class="core_title_txt.*?title="(.*?)" style="width:.*?</h\d>‘‘‘, re.S)
        result = re.search(pattern, pageCode)
        if result:
            title = result.group(1).strip() #这里注意，获取分组的方法return title
        else:
            return None
    
    #提取帖子页数def getPageNum(self):
        pageCode = self.getPage(1)
        pattern = re.compile(‘‘‘<span class=.*?</span>.*?回复贴，共.*?<span class=.*?>(.*?)</span>‘‘‘, re.S)
        result = re.search(pattern, pageCode)
        if result:
            pageNum = result.group(1).strip()
            return pageNum
        else:
            return None
    
    #获取每一层楼的内容，传入页面内容def getContent(self, page):
        pattern = re.compile(‘<div id="post_content_.*?>(.*?)</div>‘,re.S)
        items = re.findall(pattern, page)
        contents = []
        for item in items:
            content = "\n"+self.tool.replace(item)+"\n"
            contents.append(content)
        return contents

    def setFileTitle(self, title):
        if title isnot None:
            self.file = open(title+".txt","w+")
        else:
            self.file = open(self.defaultTitle+".txt","w+")
    
    def writeData(self, contents):
        #向文件写入每一楼的信息for item in contents:
            if self.floorTag == ‘1‘:
                #楼之间的分隔符
                floorLine = "\n" + str(self.floor) + "楼-------------------------------------"
                self.file.write(floorLine)
            self.file.write(item)
            self.floor+=1
    
    def start(self):
        pageNum = self.getPageNum()
        title = self.getTitle()
        self.setFileTitle(title)
        if pageNum == None:
            print(u"URL已失效，请重试")
            returntry:
            print("该帖子共有" + str(pageNum) + "页")
            for i in range(1, int(pageNum) + 1):
                print("正在写入第"+str(i)+"页数据")
                page = self.getPage(i)
                contents = self.getContent(page)
                self.writeData(contents)
        #出现写入异常except IOError as e:
            print("写入异常，原因"+e.message)
        finally:
            print("写入任务完成")

print(u"请输入帖子代号")
baseURL = ‘http://tieba.baidu.com/p/‘ + str(input(u‘http://tieba.baidu.com/p/‘))
seeLZ = input("是否只看楼主发言，是输入1，否输入0\n")
floorTag = input("是否写入楼层信息，是输入1，否输入0\n")
bdtb = BDTB(baseURL, seeLZ, floorTag)
bdtb.start()

原文：http://www.cnblogs.com/dplearning/p/4856009.html

内容总结

以上是互联网集市为您收集整理的【python】抄写大神的百度贴吧代码全部内容，希望文章能够帮你解决【python】抄写大神的百度贴吧代码所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1205032.html

来源：【匿名】

【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【【python】抄写大神的百度贴吧代码】教程文章相关的互联网学习教程文章

【python】抄写大神的百度贴吧代码【代码】

原文链接：http://cuiqingcai.com/993.html 划重点：　　1.提取帖子内容时，对图片，贴吧自动增加的超链接，制表符，换行符要做删除或替换处理　　2.decode是把bytes转换为str, encode是把str转换为bytes 原帖中的代码第100行多了一个encode,导致出错　　3.代码中用到了文件相关操作　　4.原文中获取标题的正则表达式我觉得不太对，做了修改。原文只是提取了<h1></h1>直接的，但实际上有在<h3></h3>直接的最终代码如下，在python...

Python-事件驱动模型代码【代码】

#/usr/env/bin python‘‘‘this is document ‘‘‘class Event(object):‘‘‘事件初始化的一个方式‘‘‘def__init__(self,event_type,data=None):self._type = event_typeself._data = data@propertydef type(self):return self._type@propertydef data(self):return self._dataclass EventDispatcher(object):"""event分发类监听和分发event事件"""def__init__(self):#初始化事件self._events = dict()def__del__(self):self...

python有超时的windows系统时间设置代码【代码】【图】

手边的笔记本用久了，cmos电池可能又没电了。每次开机时间都不对，导致访问一些有https的网页会出现警告信息。于是找了找通过python脚本设置系统时间的方法，发现了两种，其一是调用socket直接发送udp包到国家授时中心，其二是调用ntplib包。我在本地电脑ping 国家授时中心地址cn.pool.ntp.org有时出现丢包，然而，二者都没有检查udp是否丢包的机制，方法一在udp丢包后一直处于阻塞状态无法退出，方法二虽然会提示超时，但是不再...

将python代码编译成.so文件【代码】

https://moonlet.gitbooks.io/cython-document-zh_cn/content/ch1-basic_tutorial.htmladd_num.pyx文件def add_nums(ls):total = 0.for l in ls:total += lreturn total set_up.pyfrom distutils.core import setup from Cython.Build import cythonizesetup(ext_modules = cythonize("add_num.pyx") )运行python setup.py build_ext --inplacelinux上会生成add_num.so文件。可以删除add_num.pyx文件。之后可以直接调用import add_...

python 几行代码实现自动回复功能【代码】

今天发现python一个很好玩的模块 itchat ,可以很简单就实现一个自动回复加根据不同的人回复不同消息话不多说上代码：#!/usr/bin/python3 # -*- coding: utf-8 -*- # @Author : nanyu # @File : 111.py # @Time : 2019/4/17 14:14 # @Software: PyCharmimport itchat import time global num global lis # @itchat.msg_register(itchat.content.TEXT) #模块自带装饰器可根据需要自行百度 @itchat.msg_register(itch...

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

一、环境：Python 3.7.4Pycharm Community 2019.3二、问题：对六个样本点[1, 5], [2, 4], [4, 1], [5, 0], [7, 6], [6, 7]进行K-means聚类。三、理论推导　此处依照我个人理解所写，错误之处欢迎指出 K-means核心操作为：聚类中心选取—分类—调整聚类中心—再次分类并调整聚类中心直到调整幅度小于阈值或程序运行轮数大于阈值选取聚类中心：　　聚类中心的选取可以选择随机选取、人工选取。K-means+...

【Git】 python学习第一章 - 1.0 git管理源代码【图】

分布式版本控制系统方便多人协同开发方便版本控制工作区 git add ----> 暂存区 git commit --->仓库区 git pull git push ---->服务器 git init -----> 初始化gitgit status -----> 查看git 工作区状态 git add -----> 添加文件至暂存区 git remove ---->取消暂存 git commit -m “注释” git push 推送git pull 拉取git log 查看版本情况 git reflog 记录所有版本回退 git reset --hard id前六位恢复版本 gi...

Python 代码编辑器怎么选？PyCharm、VS Code、Jupyter Notebook 都各有特色【图】

Python 代码编辑器怎么选？PyCharm、VS Code、Jupyter Notebook 都各有特色，Jupyter 适合做数据分析这些需要可视化的操作，PyCharm 更适合做完整的 Python 项目。然而，因为交互式操作，很少会有开发者想到用 Jupyter 做 Debug。尽管很多读者可能认为 Jupyter 用来做展示和小型试验就足够了，Debug 并没有太大的需求，但弥补上 Jupyter 缺失的一环，能让它更好用，未来 Debug 也会作为默认模式。为什么 Jupyter 需要 Debug？ ...

将SCONS工具集成到Python代码中

SCONS是Python的自动智能结构化编译工具，将来或许能代替Make。在Windows或者Linux下，SConstruct文件相当于MakeFile，使用SCONS编译，需输入scons.bat(scons),后面带上编译选项options（如SConstruct所在的路径）。观察scons.bat这个脚本，可以在其他Python代码中，将SCONS工具当作一个函数来调用。这个函数就是Scons.Script.main(),这个main函数将解析命令行中的编译选项，通过sys.argv[1:]来传入。所以只需修改这个函数，就...

python读取ini配置文件的示例代码(仅供参考)

这篇文章主要介绍了python读取ini配置文件过程示范,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下　　安装 pip install configparser（www.0831jlyy.com） 1 配置文件 config.ini:[MysqlDB]user=rootpasswd=123456sport=3306db_name=my_dbcharset=utf-8（m.jlnk3659999.com）　　获取参数：import configparserconfig = configparser.ConfigParser() config.r...

centos6.6 vim自动补全python代码【代码】【图】

Pydiction 可以是我们使用Tab键自动补全Python代码在Vim，是一款非常不错的插件。Pydiction不需要安装，所有没有任何依赖包问题，Pydiction主要包含三个文件。 python_pydiction.vim -- Vim plugin that autocompletes Python code. complete-dict -- Dictionary file of Python keywords, modules, etc. pydiction.py -- Python script to add more words to complete-dict.下载Pydictionmkdir ~/.vimcd ~#这里...

effective python-编写高质量python代码的59个有效方法-读书笔记 36-38【代码】

并发计算机似乎是在同一时间做着很多不同的事情。这种交错执行程序的方式，造成了一种假象，使我们以为这些程序可以同时运行。并行计算机确实是在同一时间作者很多不同的事。具备多个CPU核心的计算机，能够同时执行多个程序。各程序中的指令，都分别运行在每个CPU内核上面，这些程序就能够在同一时刻向前推进。在同一个程序内部，并发是一种工具，它使程序员可以更加方便地解决特定类型的问题。并行与并发的关键区别，就在于能不...

Python播放、关闭音乐代码【代码】

1、安装pygame：win + r ：打开控制台输入：pip install pygame2、#导入import time import pygame3、设置音乐绝对路径#音乐路径 filepath=r"C:\*******\林海 - 欢沁.mp3" 4、#初始化pygame.mixer.init() #加载音乐track = pygame.mixer.music.load(filepath)#播放音乐 pygame.mixer.music.play()#播放音乐的时间，没有睡眠时间，程序一下就会执行完，音乐播放不出来 time.sleep(232) #关闭音乐 pygame.mixer.music.stop()原文：...

python爬虫代码【代码】

原创python爬虫代码主要用到urllib2、BeautifulSoup模块#encoding=utf-8import re import requests import urllib2 import datetime import MySQLdb from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8")class Splider(object):def__init__(self):print u‘开始爬取内容...‘##用来获取网页源代码def getsource(self,url):headers = {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X...

Python心得--如何提高代码质量【代码】

前些日子用python基于prometheus开发了一个vsphere volume卷监控的exporter，于是跟vsphere的api(pyvmomi)接口打上了交道，开发的过程中你会发现pyvmomi的接口返回的对象好多列表类型的，当你取其中一个对象的时候可能需要进行多层的循环遍历。于是促使了我写这一篇文章，记录一下在使用python搬砖过程中的一些心得体会。如有错误，欢迎大家指正。650) this.width=650;" src="http://p3.pstatp.com/large/3f2d0000b47b43cd60e1" /...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 【python】抄写大神的百度贴吧代码

【python】抄写大神的百度贴吧代码

内容导读

内容图文

内容总结

内容备注

内容手机端

【【python】抄写大神的百度贴吧代码】教程文章相关的互联网学习教程文章

【python】抄写大神的百度贴吧代码【代码】

Python-事件驱动模型代码【代码】

python有超时的windows系统时间设置代码【代码】【图】

将python代码编译成.so文件【代码】

python 几行代码实现自动回复功能【代码】

python-Kmeans\Kmeans++算法理解及代码实现【代码】【图】

【Git】 python学习第一章 - 1.0 git管理源代码【图】

Python 代码编辑器怎么选？PyCharm、VS Code、Jupyter Notebook 都各有特色【图】

将SCONS工具集成到Python代码中

python读取ini配置文件的示例代码(仅供参考)

centos6.6 vim自动补全python代码【代码】【图】

effective python-编写高质量python代码的59个有效方法-读书笔记 36-38【代码】

Python播放、关闭音乐代码【代码】

python爬虫代码【代码】

Python心得--如何提高代码质量【代码】

代码 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程