首页 / 爬虫 / Python网络爬虫

Python网络爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python网络爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2007字，纯文字阅读大概需要3分钟。

内容图文

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re
import json
import pandas
import sqlite3

commenturl = 'http://comment5.news.sina.com.cn/page/info?\version=1&format=js&channel=gn&newsid=comos-{}&\group=&compress=0&ie=utf-8&oe=utf-8&page=1&\page_size=20'

#获取评论数量
def getCommentCounts(newsurl):
m = re.search('doc-i(.*).shtml', newsurl)
newsid = m.group(1)
comments = requests.get(commenturl.format(newsid))
jd = json.loads(comments.text.strip('var data='))
return jd['result']['count']['total']

#获取新闻详情
def getNewsDetail(newsurl):
result = {}
res = requests.get(newsurl)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
result['title'] = soup.select('#artibodyTitle')[0].text
result['newssource'] = soup.select('.time-source span a')[0].text
timesource = soup.select('.time-source')[0].contents[0].strip()
result['dt'] = datetime.strptime(timesource,'%Y年%m月%d日%H:%M')
result['article'] = '@'.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])
result['editor'] = soup.select('.article-editor')[0].text.strip('责任编辑：')
result['comments'] = getCommentCounts(newsurl)
return result

#解析分页连接
def parseListLinks(url):
newsdetails = []
res = requests.get(url)
jd = json.loads(res.text.rstrip(');').lstrip(' newsloadercallback('))
for ent in jd['result']['data']:
newsdetails.append(getNewsDetail(ent['url']))
return newsdetails

#url为分页链接，关键参数page
url = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1509779364426'
news_total = []

#抓取1，2两页新闻信息
for i in range(1,3):
newsurl = url.format(i)
newsary = parseListLinks(newsurl)
news_total.extend(newsary)

#使用sqlite存储数据，pandas清晰展示数据
df = pandas.DataFrame(news_total)
with sqlite3.connect('news.sqlite') as db:
df2 = pandas.read_sql_query('select * from news', con = db)
df2

内容总结

以上是互联网集市为您收集整理的Python网络爬虫全部内容，希望文章能够帮你解决Python网络爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/839512.html

来源：【匿名】

【上一篇】python爬虫值requests模块【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python网络爬虫】教程文章相关的互联网学习教程文章

Python网络爬虫神器PyQuery的使用方法【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

python网络爬虫笔记（九）【图】

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址，主演使用HTTP协议，他的参数以ca开头的都是跟身份验证有关，不常使用，data参数是post方法提交URL时使用，常用的是timeout参数，url参数是提交网络地址全称，前端是协议...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

系统学习下python网络爬虫笔记一【代码】

系统学习下python网络爬虫的知识1、爬虫的定义Web Spider，把互联网定义为一个蜘蛛网，网络蜘蛛通过网页的链接地址来寻找网页。具体过程：从网站的某一个网页（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到所有的网页都抓取完成为止。其实，网络爬虫就是一个爬行程序，一个抓取网页的程序。我们如何才能找到自己想要的网页和去掉网页中其他不相关的...

[Python]网络爬虫：北邮图书馆排行榜【图】

最近对爬虫比较感兴趣，就研究了一下。推荐一个python爬虫博客http://blog.csdn.net/pleasecallmewhy/article/details/9305229点击打开链接。跟着博主的博客学了下来，自己动手编写了一个爬北邮图书馆排行榜的demo。#!/usr/bin/env python # -*- coding: utf-8 -*-#--------------------------------------- # 程序：bupt图书馆爬虫-排行榜 # 版本：0.1 # 作者：zhangxuan # 日期：2015-04-15 # 语言：Python 2.7 # 操...

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

转自：http://blog.csdn.net/pleasecallmewhy/article/details/8934726百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后u...

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第一部分：7000本电子书下载网络爬虫完整案例演示。配套视频课程详见[51CTO学院]章节目录：（1）页面分析1：列表页-图书清单（2）页面分析2：详情页-下载地址（3）程序演示1：导出详情页（4）程序演示2：批量图书下载（5）执行结果1：批量导出下载地址文件（7）执行结果2：批量图书下载二、正文3.1 列表页：图书清单页3.2 详情页：下载地址页3.3.1 程序演示-导出详情页链接3.3.2...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态（上）和利用Python网络爬虫爬取微信朋友圈动态——附代码（下），并且对抓取到的数据进行了Python词云和wordart可视化，感兴趣的伙伴可以戳这篇文章：利用Python词云和wordart可视化工具对朋友圈数据进行可视化。今天我们继续focus on微信，不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况。代码实现蛮简单的，具体的教程如下...

python网络爬虫作业【代码】【图】

第一部分：请分析作业页面，爬取已提交作业信息，并生成已提交作业名单，保存为英文逗号分隔的csv文件。文件名为：hwlist.csv 。文件内容范例如下形式：学号,姓名,作业标题,作业提交时间,作业URL20194010101,张三,羊车门作业,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html20194010102,李四,羊车门,2018-11-14 9:38:27.03,http://www.cnblogs.com/sninius/p/87654321.html *注1：如制作定期爬去作业爬虫...

第1天｜12天搞定Python网络爬虫，吃里爬外？【图】

人力资源部漂亮的小MM，跑来问我：老陈，数据分析和爬虫究竟是关系呀？说实在的，我真不想理她，因为我一直认为这个跟她的工作关系不大，可一想到她负责我负责部门的招聘工作，我只好勉为其难地跟她说：数据分析，吃里，爬虫，爬外，合在一起就是吃里爬外。大数据时代，要想进行数据分析，首先要有数据来源，单靠公司那几条毛毛雨(数据)，分析个寂寞都不够，唯有通过学习爬虫，从外部(网站)爬取一些相关、有用的数据，才能让老板进...

Python网络爬虫【代码】

爬虫简介requests模块数据解析三大方法seleniumscrapy框架爬虫简介- 什么是爬虫：　　爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。 - 爬虫的分类：""" - 通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为...

Python --- 网络爬虫

是什么？网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序网络爬虫有很多种类型，常用的有通用网络爬虫、聚焦网络爬虫等。做什么？通用网络爬虫可以应用在搜索引擎中，聚焦网络爬虫可以从互联网中自动采集信息并代替我们筛选出相关的数据出来。网络爬虫经常应用在以下方面：1、搜索引擎 2、采集金融数据 3、采集商品数据 4、自动过滤广告 5、采集竞争对手的客户数据 6、采集行业相关数据，进行数据分析原文：ht...

python网络爬虫-Mac-01【图】

一. 安装：1. 安装py3，使用Homebrew： ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" brew install python32. 安装请求库，Pip 是安装python包的工具，提供了安装包，列出已经安装的包，升级包以及卸载包的功能。pip3区别py3和py2。 pip3 install requests二、python创建简单的web方法1.使用eclipse创建工程1）Django 是用 Python 开发的一个免费开源的 Web 框架;D...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / Python网络爬虫

Python网络爬虫

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python网络爬虫】教程文章相关的互联网学习教程文章

Python网络爬虫神器PyQuery的使用方法【代码】

python网络爬虫笔记（九）【图】

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

系统学习下python网络爬虫笔记一【代码】

[Python]网络爬虫：北邮图书馆排行榜【图】

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

python网络爬虫——requests模块（第二章）【代码】【图】

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

python网络爬虫作业【代码】【图】

第1天｜12天搞定Python网络爬虫，吃里爬外？【图】

Python网络爬虫【代码】

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

Python --- 网络爬虫

python网络爬虫-Mac-01【图】

PYTHON - 相关标签

爬虫 - 相关标签

网络 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程