首页 / PYTHON / python学习笔记1豆瓣图书信息下载保存至csv

python学习笔记1豆瓣图书信息下载保存至csv

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python学习笔记1豆瓣图书信息下载保存至csv，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3547字，纯文字阅读大概需要6分钟。

内容图文

 1 import os #建立类目文档，未实现
 2 import re
 3 import requests
 4 from bs4 import BeautifulSoup
 5 import csv
 6 import random
 7 import time
 8 #提取类目表
 9 #建立子类url
10 books = []
11 ourl = 'https://book.douban.com/tag/'
12 headers ={
13     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
14 }
15 response = requests.get(ourl,headers = headers)
16 response.encoding = 'utf-8'
17 #定位类目位置, 测试 每大类只选取第一行选取2页    总计480本
18 soup = BeautifulSoup(response.text,'html.parser')
19 dw_= soup.select('#content > div > div.article > div:nth-child(2) > div > table > tbody > tr:nth-child(1) > td > a')
20 leimu = [] #类目表
21 link = [] #类目链接表
22 for dw in dw_:
23     leimu.append(dw.string)
24     link.append('https://book.douban.com'+dw['href'])
25 for href_ in link:#每类首页
26     for page in range(0,40,20):
27         data = {
28             'start':page,
29             'type': 'T'
30         }
31         headers2 = {
32             'Referer': 'https://www.baidu.com/',
33             'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
34         }
35         html2 = requests.get(href_, params=data,headers=headers2)
36         html2.encoding = 'utf-8'
37         soup2 = BeautifulSoup(html2.text, 'html.parser')
38         names = soup2.select('#subject_list > ul > li > div.info > h2 > a')
39         details = soup2.select('#subject_list > ul > li > div.info > div.pub')
40         scores = soup2.select('#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums')
41         briefs = soup2.select('#subject_list > ul > li > div.info > p')
42         # tag1 = soup2.select('#content > h1')
43         # tag2 = tag1[0].get_text()
44         # tag3 = re.findall(r'\:\s*(.*)',tag2)
45         # tag = tag3[0] #感觉有点多余  从标签处拿到标签
46 
47         for name, detail, score, brief in zip(names, details, scores, briefs):
48             try:
49                 dict_book = {}
50                 name1 = name.get_text().strip()
51                 name = ''.join(name1.split())  # 消除所有空格
52                 detail = detail.get_text().split('/')
53                 author = detail[0].strip()
54                 pubtime = detail[-2].strip()
55                 price1 = detail[-1].strip()
56                 price2 = re.findall(r'(\d+\.\d{0,3}).*', price1)
57                 price = price2[0]  # 正则保留数字
58                 score = score.get_text()
59                 brief = brief.get_text()
60                 dict_book['书名'] = name
61                 dict_book['作者'] = author
62                 dict_book['上市时间'] = pubtime
63                 dict_book['价格'] = price
64                 dict_book['书籍评分'] = score
65                 dict_book['内容简介'] = brief
66                 books.append(dict_book)
67                 time.sleep(random.random() * 3)#随机休眠
68                 print(name)
69             except IndexError as e:
70                 print('IndexError:',e)
71             finally:
72                 print('finally')
73         with open(r'flieName.csv', 'w',errors='ignore') as csvfile:
74             filednames = ['书名', '作者', '上市时间', '价格', '书籍评分', '内容简介']
75             writer = csv.DictWriter(csvfile, filednames)
76             writer.writeheader()
77             for book_ in books:
78                 writer.writerow({
79                     '书名': book_['书名'], '作者': book_['作者'], '上市时间': book_['上市时间'], '价格': book_['价格'],
80                     '书籍评分': book_['书籍评分'], '内容简介': book_['内容简介']
81                 })

还需添加ip池未实现

内容总结

以上是互联网集市为您收集整理的python学习笔记1豆瓣图书信息下载保存至csv全部内容，希望文章能够帮你解决python学习笔记1豆瓣图书信息下载保存至csv所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/717614.html

来源：【匿名】

【上一篇】OpenCV(Python)--1,图像的读取，显示和保存【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python学习笔记1豆瓣图书信息下载保存至csv】教程文章相关的互联网学习教程文章

python学习之路（三）使用socketserver进行ftp断点续传【代码】【图】

最近学习python到socketserver，本着想试一下水的深浅，采用Python3.6.目录结构如下：receive_file和file为下载或上传文件存放目录,ftp_client为ftp客户端，ftp_server为server端。server端源码：#!/usr/bin/env python # -*- coding:utf-8 -*-import socketserver import os error_code = {‘400‘:‘FILE IS NOT EXISTS‘} file_path = os.path.join(os.path.abspath(‘.‘),‘file‘) #获取文件目录路径‘‘‘服务端采用soc...

【Python】学习笔记七：函数【代码】【图】

函数的目的：重复使用相同的一段程序函数的定义下面是我自定义的一个求a,b,c三个参数平方和的函数#a,b,c三个参数的平方和def pow_sum(a,b,c):x = pow(a,2)+pow(b,2)+pow(c,2)return a,b,c,x#调用print(pow_sum(1,2,3))首先，def通知Python我是一个函数，pow_sum是一个函数括号中的a,b,c三个是参数，参数也可以为空，但括号是必须要有以下两段代码的缩进代表隶属关系Return可以返回多个值，用逗号分隔。相当于一个tuple(定值表)在Py...

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Web 数据抓取技术具有非常巨大的应用需求及价值，用 Python 在网页上收集数据，不仅抓取数据的操作简单，而且其数据分析功能也十分强大。通过 Python 的时lib 组件中的 urlparse 函数，可轻松解析指定网址的内容，在接收返回的 ParseResult 对象后，即可通过其属性取出网址中各项有用信息。 Python 还可进一步用 requests 函数抓取网页源代码，再通过相关语句或正则表达式搜索得到指定的数据。如果要抓取的数据比较复杂， ...

Python学习随笔_2_基础：列表、元组【代码】【图】

一、列表列表是Python 最常用的数据类型之一，通过列表可以对数据实现最方便的存储、修改等操作。1、定义列表1 names = ["Cz","Cao","Zhang","Hui","Yang"] 2print(names)2、元素访问：通过下标1 >>> names = ["Cz","Cao","Zhang","Hui","Yang"] 2 >>> names[0] 3‘Cz‘4 >>> names[1] 5‘Cao‘6 >>> names[-1] 7‘Yang‘3、切片访问 1 >>> names = ["Cz","Cao","Zhang","Hui","Yang","Xiang","Xin"]2 >>> names[1:3] #切片取值为[...

python3 学习【代码】

实现备份文件功能file_name = input("输入备份的文件： ") postion = file_name.rfind(".") file_name_new = file_name[:postion] + "[附件]" + file_name[postion:]f1 = open(file_name,‘r‘,encoding="UTF-8")f2 = open(file_name_new,"w",encoding="UTF-8") while True:content = f1.read(1024)if len(content) == 0:breakf2.write(content)f1.close()f2.close() 原文：http://www.cnblogs.com/fengjian2016/p/7511392.html

python学习笔记（四）-数据类型【代码】

0. 在 Python 中的数据类型详解http://www.cnblogs.com/scios/p/8026576.html1. 为什么布尔类型(bool)的 True 和 False 分别用 1 和 0 来代替吗？计算机只认识二进制数，所以所有的编程语言最终都会转换成简单的二进制序列给CPU按照一定的规则解析。由于二进制只有两个数：0 和 1，因此用 0 和 1 来表示False和True再适合不过了，因为不用浪费资源在转换的过程上！2. 使用int()将小数转换为整数，结果是向上取整还是向下取整呢？小...

Python学习（十）——逻辑回归（Logistic Regression）【代码】

1.简介本例子是通过对一组逻辑回归映射进行输出，使得网络的权重和偏置达到最理想状态，最后再进行预测。其中，使用GD算法对参数进行更新，损耗函数采取交叉商来表示，一共训练10000次。 2.python代码 #!/usr/bin/pythonimport numpy import theano import theano.tensor as T rng=numpy.randomN=400 feats=784 # D[0]:generate rand numbers of size N,element between (0,1) # D[1]:generate rand int number of size N,0 or ...

Python学习之列表【代码】

1.List函数 List函数可以通过字符串来创建字符列表，如下面所示： >>> list(‘Hello‘) [‘H‘, ‘e‘, ‘l‘, ‘l‘, ‘o‘] List函数可以用于所有类型的序列，并不局限于字符串。 2.列表的基本操作 2.1元素赋值 >>> x=[1,2,3] >>> x[1]=4 >>> x [1, 4, 3] 2.2删除元素 >>> x [1, 4, 3] >>> del x[1] >>> x [1, 3] 2.3分片赋值 >>> name=list(‘Perl‘) >>> name [‘P‘, ‘e‘, ‘r‘, ‘l‘] >>> name[2:] [‘r‘, ‘l‘] >>...

python学习之路——基础篇（3）模块（续）【代码】

re正则表达式、shutil、ConfigParser、xml一、re正则元字符和语法：语法说明　　表达式完全匹配字符　　　　　　　　　　字符一般字符　　匹配自身abc　　abc.匹配除换行符“\n”外,任意一个字符a.cabc\　　　　　　转义字符,将特殊字符转义为本身a\.ca\\ca.ca\c[...]匹配字符集任意一个字符，或者“-”表示一个集合范围如：[a-zA-Z0-9]匹配范围中任意一个字符；或者[^]匹配否定，对括号中的内容取反。[abc]efgaefgbefgcefg　　　　...

python学习笔记(22) 模块

加载模块：　　1.先从sys.modules里查看是否已导入　　2.如果没有导入，就依据sys.path路径寻找模块　　3.找到模块就导入　　4.创建这个模块的命名空间　　5.执行文件，把文件中的名字放到命名空间里执行demo.read会优先查找demo里的函数和变量import time as t　　#给模块起别名，原名不再可用if file_format == ‘xml‘:　　import xmlreader as readerelif file_format == ‘csv‘:　　import csvreader as readerdata = reade...

python学习笔记二：if语句及循环语句，断点，模块，pyc

if语句注意：语句块中的内容要强制缩进，否则出错。IndentationError，缩进错误所有代码，如果是顶级的，必须顶格写，前面不能有空格if … : …elif … : …else: … while语句while …: …else: …for语句for i in range(10)——i默认0，步长默认1,最大为9for i in range (0,2,10)——从0开始，步长为2，最大为8for i in range(…): …else: …break——结束本层循环...

Python学习_11_类和实例

类和实例类是对象创建实例的模板，而实例则是对象的实体。类使用class关键字定义：class MyClass:? ? passpython中创建实例直接使用工厂函数（类名加上一对括号），和其他的语言使用new关键字有所不同：my_obj = MyClass()一般来说，类名以大写字母开头，而对象名则以小写字母或者下划线开头。实例化对象时，会执行类定义中的__init__()方法，该方法执行时包含实例的各种初始化操作。方法和函数的区别：方法由对象调用，在方法定义...

Python学习笔记（七）Python循环语句

1.死循环 while 1==1:　　print("ok")另一个例子import timewhile 1==1:　　print("ok",time.time()) count = 0while count<10　　count=count+1　　print("ok",time.time())")print(123) 原文：https://www.cnblogs.com/zengtaoyunwei/p/10371618.html

Python学习—面向对象学习下【代码】

面向对象下 1.构造方法与析构方法class People(object):# 构造方法：__init__()，在实例化对象时自动执行的方法def __init__(self, name, age):self.name = nameself.age = ageprint("创建对象成功.......")# 析构函数：__del__(), 当你删除对象时，自动调用的方法# 删除对象：del 对象名def __del__(self):print("删除对象成功.......")1.构造函数：init()用于初始化类的内容部状态，也就是当该类被实例化的时候就会执行该函数。...

Python学习（三）

if语句格式： if 条件：语句elif 条件：语句else：语句and 且or 或not if ‘apple‘ not in fruits: print(‘‘)布尔表达式 True False字典dict = {‘name‘: ‘huluwa‘ , ‘age‘: ‘1‘}print(dict[‘name‘])删除键对值 del dict[‘name‘]原文：https://www.cnblogs.com/cnyws/p/14890475.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python学习笔记1豆瓣图书信息下载保存至csv

python学习笔记1豆瓣图书信息下载保存至csv

内容导读

内容图文

内容总结

内容备注

内容手机端

【python学习笔记1豆瓣图书信息下载保存至csv】教程文章相关的互联网学习教程文章

python学习之路（三）使用socketserver进行ftp断点续传【代码】【图】

【Python】学习笔记七：函数【代码】【图】

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Python学习随笔_2_基础：列表、元组【代码】【图】

python3 学习【代码】

python学习笔记（四）-数据类型【代码】

Python学习（十）——逻辑回归（Logistic Regression）【代码】

Python学习之列表【代码】

python学习之路——基础篇（3）模块（续）【代码】

python学习笔记(22) 模块

python学习笔记二：if语句及循环语句，断点，模块，pyc

Python学习_11_类和实例

Python学习笔记（七）Python循环语句

Python学习—面向对象学习下【代码】

Python学习（三）

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程