首页 / PYTHON / 抓取网易新闻的python代码示例

抓取网易新闻的python代码示例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了抓取网易新闻的python代码示例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2537字，纯文字阅读大概需要4分钟。

内容图文

这篇文章主要介绍了Python正则抓取网易新闻的方法,结合实例形式较为详细的分析了Python使用正则进行网易新闻抓取操作的相关实现技巧与注意事项,需要的朋友可以参考下

本文实例讲述了Python正则抓取网易新闻的方法。分享给大家供大家参考，具体如下：

自己写了些关于抓取网易新闻的爬虫，发现其网页源代码与网页的评论根本就对不上，所以，采用了抓包工具得到了其评论的隐藏地址（每个浏览器都有自己的抓包工具，都可以用来分析网站）

如果仔细观察的话就会发现，有一个特殊的，那么这个就是自己想要的了

抓取网易新闻的python代码示例 - 文章图片

然后打开链接就可以找到相关的评论内容了。（下图为第一页内容）

抓取网易新闻的python代码示例 - 文章图片

接下来就是代码了(也照着大神的改改写写了)。

#coding=utf-8
import urllib2
import re
import json
import time
class WY():
  def __init__(self):
    self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like '}
    self.url='http://comment.news.163.com/data/news3_bbs/df/B9IBDHEH000146BE_1.html'
  def getpage(self,page):
    full_url='http://comment.news.163.com/cache/newlist/news3_bbs/B9IBDHEH000146BE_'+str(page)+'.html'
    return full_url
  def gethtml(self,page):
    try:
      req=urllib2.Request(page,None,self.headers)
      response = urllib2.urlopen(req)
      html = response.read()
      return html
    except urllib2.URLError,e:
      if hasattr(e,'reason'):
        print u"连接失败",e.reason
        return None
  #处理字符串
  def Process(self,data,page):
    if page == 1:
      data=data.replace('var replyData=','')
    else:
      data=data.replace('var newPostList=','')
    reg1=re.compile(" \[<a href=''>")
    data=reg1.sub(' ',data)
    reg2=re.compile('<\\\/a>\]')
    data=reg2.sub('',data)
    reg3=re.compile('<br>')
    data=reg3.sub('',data)
    return data
  #解析json
  def dealJSON(self):
    with open("WY.txt","a") as file:
      file.write('ID'+'|'+'评论'+'|'+'踩'+'|'+'顶'+'\n')
    for i in range(1,12):
      if i == 1:
        data=self.gethtml(self.url)
        data=self.Process(data,i)[:-1]
        value=json.loads(data)
        file=open('WY.txt','a')
        for item in value['hotPosts']:
          try:
            file.write(item['1']['f'].encode('utf-8')+'|')
            file.write(item['1']['b'].encode('utf-8')+'|')
            file.write(item['1']['a'].encode('utf-8')+'|')
            file.write(item['1']['v'].encode('utf-8')+'\n')
          except:
            continue
        file.close()
        print '--正在采集%d/12--'%i
        time.sleep(5)
      else:
        page=self.getpage(i)
        data = self.gethtml(page)
        data = self.Process(data,i)[:-2]
        # print data
        value=json.loads(data)
        # print value
        file=open('WY.txt','a')
        for item in value['newPosts']:
          try:
            file.write(item['1']['f'].encode('utf-8')+'|')
            file.write(item['1']['b'].encode('utf-8')+'|')
            file.write(item['1']['a'].encode('utf-8')+'|')
            file.write(item['1']['v'].encode('utf-8')+'\n')
          except:
            continue
        file.close()
        print '--正在采集%d/12--'%i
        time.sleep(5)
if __name__ == '__main__':
  WY().dealJSON()

以上就是我爬取的代码了。

以上就是抓取网易新闻的python代码示例的详细内容，更多请关注Gxl网其它相关文章！

内容总结

以上是互联网集市为您收集整理的抓取网易新闻的python代码示例全部内容，希望文章能够帮你解决抓取网易新闻的python代码示例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/427620.html

来源：【匿名】

【上一篇】Python大神都知道的内置函数【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【抓取网易新闻的python代码示例】教程文章相关的互联网学习教程文章

Python实现生成简单的Makefile文件代码示例

在linux下写几个测试程序，还要一行行的输入g++命令进行编译，当经常改测试代码的时候，那一次次的敲（或者一次次的上线箭头选）也感觉不爽，不如make来的快。用Makefile的好处就不用多说了，这里我写了个脚本，其功能是自动搜索当前目录（不包括子目录）下的“.c”文件生成Makefile文件。代码在这里，功能有限（适用于单个文件是一个独立的测试代码的情况），需要的朋友可以稍作修改以满足需求。复制代码代码如下: #! /usr/bin/p...

Tensorflow分类器项目自定义数据读入的方法介绍（代码示例）【图】

本篇文章给大家带来的内容是关于Tensorflow分类器项目自定义数据读入的方法介绍（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。Tensorflow分类器项目自定义数据读入在照着Tensorflow官网的demo敲了一遍分类器项目的代码后，运行倒是成功了，结果也不错。但是最终还是要训练自己的数据，所以尝试准备加载自定义的数据，然而demo中只是出现了fashion_mnist.load_data()并没有详细的读取过程，随后我又...

Python中logging日志模块的解析（代码示例）

本篇文章给大家带来的内容是关于Python中logging日志模块的解析（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。一、日志记录的级别debug：优先级10，记录调试的详细信息，只在调试时开启info：优先级20，记录普通的消息，报告错误和警告等待。warning：优先级30，记录相关的警告信息。error：优先级40，记录错误信息、程序崩溃critical：优先级50，记录错误信息如果不设置，默认为iwarning二、logg...

python中的异常处理（代码示例）

本篇文章给大家带来的内容是关于python中的异常处理（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。当我们认为某些代码可能会出错时，就可以用try来运行这段代码，如果执行出错，则后续代码不会继续执行，而是直接跳转至错误处理代码，即except语句块，执行完except后，如果有finally语句块，则执行finally语句块，至此，执行完毕。python的try语句有两种风格处理异常（try/except/else）种是无论是...

python爬虫代码示例分享【代码】【图】

这篇文章主要介绍了三个python爬虫项目实例代码，使用了urllib2库，文中示例代码非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友可以参考下。python爬虫代码示例分享一、爬取故事段子：推荐学习：Python视频教程注：部分代码无法正常运行，但仍有一定的参考价值。#encoding=utf-8 import urllib2import reclass neihanba():def spider(self):爬虫的主调度器isflow=True#判断是否进行下一页page=1while isflow:u...

Python使用matplotlib绘制3D图形（代码示例）【图】

本篇文章给大家带来的内容是关于Python使用matplotlib绘制3D图形（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。3D图形在数据分析、数据建模、图形和图像处理等领域中都有着广泛的应用，下面将给大家介绍一下如何在Python中使用 matplotlib进行3D图形的绘制，包括3D散点、3D表面、3D轮廓、3D直线（曲线）以及3D文字等的绘制。准备工作：python中绘制3D图形，依旧使用常用的绘图模块matplotlib，但需...

Python函数中如何返回多个值？（代码示例）【图】

在Python中，我们可以通过多种方法，从一个函数中返回多个值。下面本篇文章就来给大家介绍一下从一个函数中返回多个值的方法，希望对大家有所帮助。方法一：使用Object这类似于C / C ++和Java，我们可以创建一个类来保存多个值并返回该类的对象。下面通过代码示例来看看一个函数中如何返回多个值class Test: def __init__(self): self.str = "hello world!"self.x = 20 # 返回一个对象 def fun(): return Test() t = fun() pr...

如何使用python实现圆周率的计算（代码示例）【图】

本篇文章给大家带来的内容是关于如何使用python实现圆周率的计算（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。一、π的简介π的介绍圆周率用希腊字母 π（读作pi）表示，是一个常数（约等于3.141592654），是代表圆周长和直径的比值。它是一个即无限不循环小数，在日常生活中，通常都用3.14代表圆周率去进行近似计算。π的求解历程1965年，英国数学家约翰沃利斯（John Wallis）出版了一本数学专著...

python单链表中如何插入和输出节点？(代码示例)【图】

python单链表中如何插入和输出节点？下面本篇文章就来带大家了解一下单链表是什么，如何对单链表执行的一些非常基本的操作，例如：插入、输出，希望对大家有所帮助。单链表是什么？首先在了解单链表之前，我们必须了解一下节点是什么。节点是链表的构建块，它由两部分组成：1、数据部分：用于包含数据2、地址部分：用于指向下一个节点位置的指针。在单链表中，每个节点的地址部分包含有关下一个节点位置的信息；这形成一系列的链条...

如何使用Python读取excel文件？（代码示例）【图】

使用xlrd模块，可以从电子表格中检索信息。例如，可以用Python来读取、写入或修改数据。此外，用户可能必须遍历各种表，并根据一些标准检索数据，或者修改一些行和列，并执行大量工作。xlrd模块用于从电子表格中提取数据。安装xlrd模块命令:pip install xlrd输入文件：代码＃1：# 使用Python读取excel文件 import xlrd # 给出文件的位置 loc = ("path of file") # 打开Workbook wb = xlrd.open_workbook(loc) sheet = wb.sheet_...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 抓取网易新闻的python代码示例

抓取网易新闻的python代码示例

内容导读

内容图文

内容总结

内容备注

内容手机端

【抓取网易新闻的python代码示例】教程文章相关的互联网学习教程文章

Python实现生成简单的Makefile文件代码示例

Tensorflow分类器项目自定义数据读入的方法介绍（代码示例）【图】

Python中logging日志模块的解析（代码示例）

python中的异常处理（代码示例）

python爬虫代码示例分享【代码】【图】

Python使用matplotlib绘制3D图形（代码示例）【图】

Python函数中如何返回多个值？（代码示例）【图】

如何使用python实现圆周率的计算（代码示例）【图】

python单链表中如何插入和输出节点？(代码示例)【图】

如何使用Python读取excel文件？（代码示例）【图】

Python如何清空列表？清空列表的4种方法（代码示例）【图】

Python如何创建指定范围的数字列表？（代码示例）【图】

Python如何删除除字母和数字之外的所有字符？(代码示例)【图】

Python如何获取列表长度？（代码示例）【图】

Python如何计算列表中所有数字的乘积？（代码示例）【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程