python爬取多网小说

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬取多网小说，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3582字，纯文字阅读大概需要6分钟。

内容图文

python爬取多网小说 - 文章图片

爬取小说完整代码在GIT中的地址：https://github.com/wenjiankui/books
CSDN代码资源下载地址：https://download.csdn.net/download/qq_39025957/14927458

一、系统环境

python3.7
pyqt5
Windows10 x64

二、讲解爬取小说过程

以爬取笔趣阁平台小说为例进行讲解，其他平台，是同一个思路

2、在搜索框输入要小说名，点击搜索，

python爬取多网小说 - 文章图片

3、按F12调出开发者工具，然后刷新网页

python爬取多网小说 - 文章图片

4、找到获取小说信息的请求

python爬取多网小说 - 文章图片

5、点击上图的第五步，找到数据的请求地址和请求数据，获取到请求方式（post）

python爬取多网小说 - 文章图片
由此可以看出，每次请求的都是同一个地址，根据每次请求的不同
“searchkey”数据，来区别每次请求的数据
使用requests网络请求模块

pip install requsts		# 模块安装

代码实现

search_url = "http://www.xbiquge.la/modules/article/waps.php"
data = {
   'searchkey': "斗罗大陆"
}
res = requests.post(search_url, data)  # 进行post请求
res.encoding = 'utf-8'
print(res.text)
html = etree.HTML(res.text)  # <Element html at 0x7ff3fe0d6108>
print(html)

6、分析获取到的数据，找到小说存放地址

python爬取多网小说 - 文章图片

7、找到关键数据，小说地址、小说名称、作者

python爬取多网小说 - 文章图片
代码实现（接第5步代码）

book_root = html.xpath("//*[@class='grid']")
# print(book_root)
# print(etree.tostring(book_root[0]))

book_list = book_root[0].xpath("./tr")
del book_list[0]
# print(book_list)
# print(etree.tostring(book_list[0]))

if len(book_list) == 0:                # 搜索结果为空时
    return []

book_url_list = book_list[0].xpath("./td/a/@href")[0]
# print(book_url_list)
book_message = book_list[0].xpath("./td/a/text()")
# print(book_message)
book_user_list = book_list[0].xpath("./td/text()")[1]
# print(book_user_list)
book_list_meesage = []
for item in book_list:
    book_buf = {}
    book_buf["book_name"] = item.xpath("./td/a/text()")[0]
    book_buf["book_url"] = item.xpath("./td/a/@href")[0]
    book_buf["book_user"] = item.xpath("./td/text()")[1]
    book_buf["book_size"] = item.xpath("./td/a/text()")[1]

    book_list_meesage.append(book_buf)
    print(book_buf["book_name"], " : ", book_buf["book_user"], " : ", book_buf["book_size"])
    print(book_buf["book_url"])
    print("*********************************************")

8、进入该书列表，继续找到小说的请求

python爬取多网小说 - 文章图片

9、找到请求地址，获取请求方式（get）

python爬取多网小说 - 文章图片
根据刚刚已经获得的小说列表地址，
代码实现

"""
:param url: 传入需要爬取的网站
:return: 响应体
"""
response = requests.get(url)
# 自动解决乱码问题
response.encoding = response.apparent_encoding
# 将网页数据结构化
sel = parsel.Selector(response.text)
print(response.text)

10、分析网页结构，找到章节地址

python爬取多网小说 - 文章图片
代码实现（接第9步代码）

# 提取出书名
book_name = sel.xpath('//div[@id="info"]/h1/text()').get()
# 根据xpath提取每个章节目录地址
index = sel.xpath('//*[@id="list"]/dl/dd').getall()

print(book_name)
url_list = []
for i in index:
	# 得到的是章节地址的关键性数据，需要经过组合得到真正的地址
    get_url = "http://www.xbiquge.la" + re.match(r'(.*)"(.*?)".*', i).group(2)
    url_list.append(get_url)
    print(get_url)

11、进入小说章节，找到获取数据的请求

python爬取多网小说 - 文章图片

12、获取到请求方式(get)

python爬取多网小说 - 文章图片
代码实现

"""
:param url:需要爬取这一章小说的地址
"""
response = requests.get(url)
#自动解决乱码问题
response.encoding = response.apparent_encoding
print(response.text)
# 将网页数据结构化
sel = parsel.Selector(response.text)

13、分析网页结构，获取小说内容

python爬取多网小说 - 文章图片
代码实现，接第12步代码

 # 根据css选择器提取标题
chapter_title = sel.css('div.bookname > h1::text').get()
# 提取内容
content = sel.css('#content::text').getall()
chapter_data = []
# 去掉最后三行
for con in content:
    print(con)
    # str使用replace去除空格
    chapter_data.append(con.replace('\xa0', ""))

三、总结

爬取过程：

在首页获取到搜索请求的地址
在搜索框中输入小说名
在搜索结果中，找到小说地址
在小说章节列表中获取每一章节的地址
在每一章节中爬取小说内容

该帖子主要是讲如何在小说平台上爬取小说内容的过程，具体实现请参考git上的代码，看代码前，请认真阅读redme文档

内容总结

以上是互联网集市为您收集整理的python爬取多网小说全部内容，希望文章能够帮你解决python爬取多网小说所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/608669.html

来源：【匿名】

【上一篇】pycharm未识别python工具库的解决方法【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python爬取多网小说】教程文章相关的互联网学习教程文章

from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaExceptionclient = ZhihuClient()try:client.login(‘email_or_phone‘, ‘password‘)print(u"登陆成功!") except NeedCaptchaException:# 保存验证码并提示输入，重新登录with open(‘a.gif‘, ‘wb‘) as f:f.write(client.get_captcha())captcha = input(‘please input captcha:‘)client.login(‘+8613872273541‘, ‘z289784552‘, capt...

Python3爬取百度百科（配合PHP）【代码】【图】

用PHP写了一个网页，可以获取百度百科词条：http://www.selflink.cn/xiaobaike（只爬取摘要部分）那么通过Python来爬取，只需要不断向这个网页POST数据，获取返回值就可以了。由于是我自己的网页，保存返回值我也让PHP在服务器端来完成了，所以Python的任务只需要不断向服务器POST数据。那么POST什么数据呢？暂时找到了一个名词大全的网页。http://cidian.911cha.com/cixing_mingci.html足足20页的名词，足够作为名词POST数据的来...

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

日期：2020.01.27博客期：135星期一　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）　　网站的相关热词来源...

python爬有道翻译【代码】

在有道翻译页面中打开开发者工具，在Headers板块找到Request URL以及相应的data。 import urllib.request import urllib.parse import jsoncontent=input(‘请输入需要翻译的内容:‘)#_o要去掉，否则会出先error_code:50的报错 url=‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule‘data={} #开发者工具里有，i和doctype键不可少 data[‘i‘]=content data[‘from‘]=‘AUTO‘ data[‘to‘]=‘AUTO‘ data...

利用Python爬取fofa网页端数据【代码】

安装环境：pip install requests pip install lxml pip install fire使用命令：python fofa.py -s=title="你的关键字" -o="结果输出文件" -c="你的cookie" 代码如下：import requests,time,base64,fire from lxml import etree def fofasc(s,o,c):try:sbase64 = (base64.b64encode(s.encode(‘utf-8‘))).decode(‘utf-8‘)cookies = {"_fofapro_ars_session": c}headers = {‘User-Agent‘: ‘Mozilla/5.0 (Linux; Android 7.1.2;...

python爬微博【代码】

# -*- coding: utf-8 -*-import urllib.request import json#定义要爬取的微博大V的微博ID id=‘3924739974‘#设置代理IP proxy_addr="122.241.72.191:808"#定义页面打开函数 def use_proxy(url,proxy_addr):req=urllib.request.Request(url)req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")proxy=urllib.reque...

python爬取珞珈1号卫星数据【代码】【图】

首先登录珞珈一号数据系统查询想要的数据利用浏览器审查元素获取包含下载信息的源码将最右侧的table相关的网页源码copy到剪切板备用利用python下载数据 ## utf-8import requests import os # import urllib.requestfrom bs4 import BeautifulSoup from tqdm import tqdm import pandas as pd def saveFile(url,fileName):# ‘‘‘ 保存文件‘‘‘r = requests.get(url, stream=True)chunkSize = 256# print(‘dowloading...‘,fi...

python爬取豆瓣250存入mongodb全纪录【代码】【图】

用了一周的时间总算搞定了，跨过了各种坑，总算调试成功了，记录如下：1、首先在cmd中用命令行建立douban爬虫项目scrapy startproject douban2、我用的是pycharm，导入项目后，1）在items.py中定义爬取的字段items.py代码如下：123456789101112# -*- coding: utf-8 -*-import scrapy class DoubanBookItem(scrapy.Item): name = scrapy.Field() # 书名 price = scrapy.Field() # 价格 edition_year...

python爬取标题和作者时间的小程序

#encoding:UTF-8import urllib.parseimport urllib.requestimport base64import reimport sysimport timefrom random import sampleimport codecsfrom html.parser import HTMLParserlog = ‘gogogo.txt‘logfile = codecs.open(log,‘w‘,‘utf-8‘)class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.a=0 self.span=0; def handle_starttag(self,tag,attrs): ...

python 爬图片【代码】【图】

学了两天python，语法慢慢熟悉吧，数据结构都没写过。写了一个爬图片的小东西。挺有意思的。都是女神照 (????)用的是正则表达式， 1‘‘‘ 2符号：3 . 匹配任意字符，\n除外4 * 匹配前一个字符一次或无限次5 ? 匹配前一个字符0次或1次6 .* 贪心匹配7 .*? 非贪心匹配8 () 返回括号内容9方法： 10 findall 11 search 12 sub 1314用的最多的是(.*?) 15‘‘‘requests的导入，我也是醉了，还要eas...

Python爬取京东：价格、商品ID、标题、评价、店名、是否自营【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：菜鸟级程序猿代码实现import requests from lxml import etree import time import random import pandas as pd import json from sqlalchemy import create_engine from sqlalchemy.dialects.oracle import DATE,FLOAT,NUMBER,VARCHAR2 import cx_Oracle 先导入需要用的包PS：如有需要Python学...

python 爬小说【代码】

#coding=utf-8import datetime import time import sys import os import urllib2 import urllibsx = ‘小说站网址‘type = sys.getfilesystemencoding() user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘ headers = { ‘User-Agent‘ : user_agent } fo = open("note.txt", "wb")def getHtml(url): try: request = urllib2.Request(url, headers=headers) response = urllib2.urlopen(request) data = ...

python爬取网页内容demo【代码】

1#html文本提取 2from bs4 import BeautifulSoup3 html_sample = ‘ 4<html> 5<body> 6<h1 id = "title">Hello world</h1> 7<a href = "#www.baidu.com" class = "link"> This is link1</a> 8<a href = "#link2" class = "link"> This is link2</a> 9</body> 10</html>‘11 soup = BeautifulSoup(html_sample,‘html.parser‘) 12print(soup.text) 13 soup.select(‘h1‘) 14print(soup.select(‘h1‘)[0].text) 15print(soup.s...

利用python爬取点小图片，满足私欲(爬虫)【代码】

import requestsimport reimport os,syslinks=[]titles=[]headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}def get_url(page): url=‘http://www.zbjuran.com/mei/xinggan/list_13_%s.html‘%(page) data=requests.get(url,headers=headers).text data_use=re.findall(‘<div class="name"><a target="_bla...

怎么用Python爬取抖音小视频? 资深程序员都这样爬取的(附源码)【代码】【图】

简介抖音，是一款可以拍短视频的音乐创意短视频社交软件，该软件于2016年9月上线，是一个专注年轻人的15秒音乐短视频社区。用户可以通过这款软件选择歌曲，拍摄15秒的音乐短视频，形成自己的作品。此APP已在Android各大应用商店和APP Store均有上线。今天咱们就用Python爬取抖音视频准备：环境：Python3.6+WindowsIDE：你开行就好，喜欢用哪个就用哪个模块：1from splinter.driver.webdriver.chrome import Options, Chrome 2from ...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python爬取多网小说

python爬取多网小说

内容导读

内容图文

一、系统环境

二、讲解爬取小说过程

1、打开笔趣阁首页

2、在搜索框输入要小说名，点击搜索，

3、按F12调出开发者工具，然后刷新网页

4、找到获取小说信息的请求

5、点击上图的第五步，找到数据的请求地址和请求数据，获取到请求方式（post）

6、分析获取到的数据，找到小说存放地址

7、找到关键数据，小说地址、小说名称、作者

8、进入该书列表，继续找到小说的请求

9、找到请求地址，获取请求方式（get）

10、分析网页结构，找到章节地址

11、进入小说章节，找到获取数据的请求

12、获取到请求方式(get)

13、分析网页结构，获取小说内容

三、总结

内容总结

内容备注

内容手机端

【python爬取多网小说】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程