Python采集腾讯新闻实例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python采集腾讯新闻实例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4277字，纯文字阅读大概需要7分钟。

内容图文

目标是把腾讯新闻主页上所有新闻爬取下来，获得每一篇新闻的名称、时间、来源以及正文。

接下来分解目标，一步一步地做。

步骤1：将主页上所有链接爬取出来，写到文件里。

python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。

代码如下:

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html

我们都知道html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。

查阅了资料，一开始我打算用HTMLParser，而且也写出来了。但是它有一个问题，就是遇到中文字符的时候无法处理。

代码如下:

class parser(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for attr, value in attrs:
if attr == 'href':
print value

后来使用了SGMLParser，它就没有这个问题。

代码如下:

class URLParser(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []

def start_a(self,attrs):
href = [v for k,v in attrs if k=='href']
if href:
self.urls.extend(href)

SGMLParser针对某个标签都需要重载它的函数，这里是把所有的链接放到该类的urls里。

代码如下:

lParser = URLParser()#分析器来的
socket = urllib.urlopen("http://news.qq.com/")#打开这个网页

fout = file('urls.txt', 'w')#要把链接写到这个文件里
lParser.feed(socket.read())#分析啦

reg = 'http://news.qq.com/a/.*'#这个是用来匹配符合条件的链接，使用正则表达式匹配
pattern = re.compile(reg)

for url in lParser.urls:#链接都存在urls里
if pattern.match(url):
fout.write(url+'\n')

fout.close()

这样子就把所有符合条件的链接都保存到urls.txt文件里了。

步骤2：对于每一个链接，获取它的网页内容。

很简单，只需要打开urls.txt文件，一行一行地读出来就可以了。

也许这里会显得多此一举，但是基于我对解耦的强烈愿望，我还是果断地写到文件里了。后面如果采用面向对象编程，重构起来是十分方便的。

获取网页内容部分也是相对简单的，但是需要把网页的内容都保存到一个文件夹里。

这里有几个新的用法：

代码如下:

os.getcwd()#获得当前文件夹路径
os.path.sep#当前系统路径分隔符（是这个叫法吗？）windows下是“\”，linux下是“/”

#判断文件夹是否存在，如果不存在则新建一个文件夹
if os.path.exists('newsdir') == False:
os.makedirs('newsdir')

#str()用来将某个数字转为字符串
i = 5
str(i)

有了这些方法，将字符串保存到某个文件夹下不同的文件就不再是一件困难的事了。

步骤3：枚举每一个网页，根据正则匹配获得目标数据。

下面的方法是用来遍历文件夹的。

代码如下:

#这个是用来遍历某个文件夹的
for parent, dirnames, filenames in os.walk(dir):
for dirname in dirnames
print parent, dirname
for filename in filenames:
print parent, filename

遍历，读取，匹配，结果就出来了。

我使用的数据提取的正则表达式是这样的：

代码如下:

reg = '

.*?

(.*?)

.*?(.*?).*?(.*?).*?<div id="Cnt-Main-Article-QQ" .*?>(.*?)

其实这个并不能匹配到腾讯网的所有新闻，因为上面的新闻有两种格式，标签有一点差别，所以只能提取出一种。

另外一点就是通过正则表达式的提取肯定不是主流的提取方法，如果需要采集其他网站，就需要变更正则表达式，这可是一件比较麻烦的事情。

提取之后观察可知，正文部分总是会参杂一些无关信息，比如“

内容总结

以上是互联网集市为您收集整理的Python采集腾讯新闻实例全部内容，希望文章能够帮你解决Python采集腾讯新闻实例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/435570.html

来源：【匿名】

【上一篇】Python中lambda的用法及其与def的区别解析【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python采集腾讯新闻实例】教程文章相关的互联网学习教程文章

一、需求编写一个用于验证员工登录并采集员工信息的接口员工尝试登录次数为3次，超过三次被锁定员工输入个人信息并存档，可重复输入两次，若两次输入个人信息错误，则程序结束二、代码#!/usr/bin/env python #_*_coding:utf-8_*_ import sys from imaplib import Continuation username = ‘mangguo‘ password = ‘json‘ try_time = 0 while try_time < 3: username_input = raw_input(‘input your username:‘) if use...

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

目录前言准备分析（x0）分析（x1）分析（x2）分析（x3）分析（x4）总结我有话说前言大家好，我叫善念。不说漂亮话，直接开始今天要采集的目标：某宝数据今天要采用的方式是selenium自动化工具。简单说下selenium的原理——利用网页元素控制浏览器。准备安装selenium模块： pip install selenium 我采用的是利用selenium控制Chrome浏览器，所以咱们需要下载一个selenium与Chrome的桥梁——Chromedriver插件下载地...

杂记使用Python采集网页内容【代码】

BeautifulSoup 一个分析、处理DOM树的类库。采集所有img标签的title属性的内容# -*- coding: utf-8 -*- from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoupurl = "http://qa.beloved999.com/category/view?id=2" url = "http://beloved.finley.com/category/view?id=24" html = urlopen(url) bs = BeautifulSoup(html.read(),"html.parser")...

Python网络数据采集

Python网络数据采集（高清版）PDF百度网盘链接：https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q提取码：febb复制这段内容后打开百度网盘手机App，操作更方便哦内容简介 · · · · · ·本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据 by:授客 QQ：1033553122 实现功能测试环境环境搭建使用前提使用方法运行程序效果展示实现功能无需在被监控主机上安装代理，一键对Linux远程服务器不同主机执行性能监控、性能数据采集命令，并实时展示支持跨堡垒机收集实时性能数据(注：定制化开发，非通用) 支持docker容器(因为程序实现是从docker容器内部获取性能数据，所以目前仅支持 CPU,内存,I/O) 使...

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集，列表里面能够取得每个文章的id，而每个文章又是通过一个统一的接口（参数带上那个文章id即可获取到对应的json）里面又有一部分数据需要采集然后进行数据分析。目前有什么比较成熟的框架或者轮子能够实现我的需求吗？（要多线程，而且可以7x24小时稳定运行，因为采集数量巨大）另外问一下，采集到的内容如何存储（百万到千万），数据里面有一些数字数据，...

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！回复内容：简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！虽然知道php不是和采集，但是还一直在用php，因为其他的不会。。。优势就是库...

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

写在前面的话接下来的这个月要忙着应付期末的各种事情了, 可能不太有时间写博客了. 看过我博客的, 对于我博客的”又长又臭”可能有所了解, 平均一篇都要花费我2.5天时间. 这次, 我先把之前做的笔记放出来, 美其名曰: 先睹为快, 算作以后的一个系列吧. 稍后应该可能也许大概会有修订版, 对笔记的内容作进一步的梳理总结. 笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸 ...

Python实时数据采集-新型冠状病毒【代码】【图】

Python实时数据采集-新型冠状病毒源代码来源：https://github.com/Programming-With-Love/2019-nCoV疫情数据时间为：2020.2.1项目相关截图：全国数据展示国内数据展示国外数据展示查看指定区域详细数据源代码，注意安装所需模块（例如 pip install 模块名）import requests import re from bs4 import BeautifulSoup from time import sleep import json from prettytable import ALL from prettytable import PrettyTablehubei =...

Python采集--数据的储存【图】

Python网络数据采集3-数据存到CSV以及MySql先热热身，下载某个页面的所有图片。import requestsfrom bs4 import BeautifulSoupheaders = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193}start_url = https://www.pythonscraping.comr = requests.get(start_url, headers=headers) soup = BeautifulSoup(r.text, lxml)# 获取...

用python写的一个wordpress的采集程序【图】

在学习python的过程中，经过不断的尝试及努力，终于完成了第一个像样的python程序，虽然还有很多需要优化的地方，但是目前基本上实现了我所要求的功能，先贴一下程序代码：具体代码如下:#! /usr/bin/pythonimport os,urllib2,re,time,MySQLdb,sysreTitle = re.compile(<font[^>]*>(.*?)<\/font><font[^>]*)reNeiron = re.compile([1-9|A-Z|a-z].*)retiqu = re.compile(^(?!MARGINWIDTH|BR).*.[^>|}]$)re...

首页 / PYTHON / Python采集腾讯新闻实例

Python采集腾讯新闻实例

内容导读

内容图文

(.*?)

内容总结

内容备注

内容手机端

【Python采集腾讯新闻实例】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

杂记使用Python采集网页内容【代码】

Python网络数据采集

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

Python实时数据采集-新型冠状病毒【代码】【图】

Python采集--数据的储存【图】

用python写的一个wordpress的采集程序【图】

PYTHON - 相关标签

采集 - 相关标签

实例 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程