首页 / PYTHON / Python爬取新闻并生成Excel和下载有关图片的学习

Python爬取新闻并生成Excel和下载有关图片的学习

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取新闻并生成Excel和下载有关图片的学习，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5594字，纯文字阅读大概需要8分钟。

内容图文

Python的学习是循序渐进
这是博主写的一段Python代码
代码仅供参考学习，不能用于商用
爬虫是用来爬取信息，进行学习的。本编程的书写者日常热爱看新闻，特别是观察者网和观视频网。
祝大家学习进步哦，加油！
侵权者必究

# -*- coding =utf-8 -*-
# @Time :2021/2/12 9:07
# @Author:强强
# @File : spider01.py
# @Software: PyCharm:PyCharm
from bs4 import BeautifulSoup  # 网页解析
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 定制URL，获取网页数据
import xlwt  # 进行excel操作
import urllib.parse
import requests

import time

# os.mkdir("D:\PythonProjects\project3\spider\img")
# 正则序列（调取信息的通式，利用正则表达式）
# 1.新闻标题的获取
findTitle = re.compile(r'<h4 class="module-title"><.*>(.*)</a></h4>')
# 2.新闻图片的获取
findImg = re.compile(r'<a class=".*?" target="_blank"><img alt="" height="259" src="(.*?)" width="365"/></a>', re.S)
# 3.新闻概况的获取
findDetail = re.compile(r'<p class="module-artile">(.*?)</p>')
# 4.新闻的链接
findLink = re.compile(r'<a class="static-img fl" href="(.*?)".*?>')


# 主要功能的执行程序
def main():
    # 1.获取网页内容
    baseurl = "https://www.guancha.cn/mainnews-yw/"//新闻的网址，可以更改
    (datalistTitles, datalist2, datalist3, datalist4) = getData(baseurl)
    return datalistTitles, datalist2, datalist3, datalist4
    # 2.解析内容
    # 3.保存内容


# 模拟浏览器，得到网页的源代码
def askURL(url):
    head = {  # 模拟浏览器头部信息，向服务器发送信息
        "User-Agent": "Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36(KHTML,likeGecko) Chrome / 78.0.3904.108Safari / 537.36",
    }  # 用户代理，表示告诉服务器，我们是什么类型的机器，我们可以接受什么水平的文件
    request = urllib.request.Request(url, headers=head)  # 打包好头部信息
    html = ""  # 创建空的html变量，存储获取到的源代码
    time.sleep(0.50)
    print("数据正在搬运的路上，客官请稍后")
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")  # 将获取到的信息载入html字符串中
        # print(html)  # 打印出获取的数据 用于测试该函数是否正常运行
    except urllib.error.URLError as e:
        if hasattr(e, "code"):  # 打印出错误的代码
            print(e.code)
        if hasattr(e, "reason"):  # 获取错误的原因
            print(e.reason)
    return html


# 浏览器内容解析转化为数据
def getData(baseurl):
    # 创建数组储存处理后的数据
    datalistTitles = []
    datalist2 = []
    datalist3 = []
    datalist4 = []
    n = 1
    for i in range(0, 15):  # 注意左闭右开  目的调用获取页面信息的函数，15次
        # 将源代码导出到变量
        url = baseurl + str("list_%d.shtml" % (i + 1))  # 将得到的参数（askURL得到的网页的源代码）赋值给url，便于解析
        print(url)  # 调试遍历网页是否实现
        html = askURL(url)
        # 解析源代码，形成更加方便阅读的格式
        soup = BeautifulSoup(html, 'html.parser')
        module = soup.find_all('div', class_='main content-main')  # 查找符合要求的字符串形成列表，删去一些不必要的字符串和代码
        module = str(module)
        # print(module)   # 测试bs4是否正常工作
        titles = re.findall(findTitle, module)
        # print(titles)   # 测试上面的正则表达式是否正常运行
        imgUrl = re.findall(findImg, module)
        # print(imgUrl)  # 测试上面的正则表达式是否正常运行
        grasp = re.findall(findDetail, module)
        # print(grasp)  # 测试上面的正则表达式是否正常运行
        link = re.findall(findLink, module)
        # print(link)  # 测试上面的正则表达式是否正常运行
        # 对经过正则表达式筛选后的数据进行赋值和添加
        print("数据正在处理的路上，客官等等哈")
        for items in imgUrl:  # 遍历所有下载链接
            ImgURl = items
            if items != 0:
                print("下载图片%d中" % n)
                imgDownload(ImgURl, n)  # 下载图片并标记下载的名称
                n += 1
                datalist2.append(ImgURl)
            else:
                datalist2.append('')

        for item in titles:
            datalistTitles.append(item)
        for items in grasp:
            datalist3.append(items)
            # print(datalist3)是否正常运行
        for item in link:
            # print(item)  # 测试是否能够正常输出连接的后半部分
            # print(type(item))  # 测试输出的结果是否为str
            url2 = "https://www.guancha.cn/"
            url3 = url2 + item
            # print(url3)   # 测试是否能够得到正常的超链接
            datalist4.append(url3)  # 将得到的数据加入datalist4
    # print(datalist4)    测试得到数据是否正常导入
    # print(datalistTitles)  # 测试新闻标题是否导入
    return datalistTitles, datalist2, datalist3, datalist4


# 图片下载的处理
def imgDownload(imgUrl,n):
    image_response = requests.get(imgUrl)
    t = str(n).replace(".", "")
    file_path = '{0}\\{1}.{2}'.format(r'D:\PythonProjects\project3\spider\img', t, '热点')
    address = file_path
    image = image_response.content

    try:
        with open(address + "新闻.jpg", "wb") as jpg:
            jpg.write(image)
    except IOError:
        print("IO Error\n")


def saveDate(datalistTitles, datalist2, datalist3, datalist4):
    # 3.保存数据
    savepath = ".\\热点新闻.xls"
    print("saving.....")  # 显示数据正在处理中
    book = xlwt.Workbook(encoding="utf-8")  # 创建workbook工作对象
    sheet = book.add_sheet('热点新闻获取', cell_overwrite_ok=True)  # 创建工作表
    col = ("新闻名字", "新闻图片URL", "新闻图片", "新闻概括", "新闻链接")
    for i in range(0, len(col)):
        sheet.write(0, i, col[i])
    i = 1
    j = 1
    k = 1
    m = 1
    p = 1
    for item in datalistTitles:
        sheet.write(i, 0, item)
        i += 1
    for item in range(datalist2):
        try:
            address = "%d.热点新闻.jpg" % p
            f = open(r'D:/PythonProjects/project3/spider/img/%s' % address, "r")
            img = f.read()
            sheet.write(p, 1, img)
            f.close()
        except Exception as e:
            print(e)

    for items in datalist2:
        sheet.write(j, 2, items)
        j += 1
    for item in datalist3:
        sheet.write(k, 3, item)
        k += 1
    for items in datalist4:
        sheet.write(m, 4, items)
        m += 1
    book.save(savepath)


# 写入图片的函数定义
# def write_pic(cell, num):
#     path =f'D:\PythonProjects\project3\spider\img\{num}.热点新闻.jpg'
#




if __name__ == '__main__':
    datalist = []
    (datalistTitles, datalist2, datalist3, datalist4) = main()
    # for item in datalistTitles:
    #     datalist.append(item)
    # for items in datalist2:
    #     datalist.append(items)
    # for item in datalist3:
    #     datalist.append(item)
    # for items in datalist4:
    #     datalist.append(items)
    saveDate(datalistTitles, datalist2, datalist3, datalist4)

内容总结

以上是互联网集市为您收集整理的Python爬取新闻并生成Excel和下载有关图片的学习全部内容，希望文章能够帮你解决Python爬取新闻并生成Excel和下载有关图片的学习所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/599342.html

来源：【匿名】

【上一篇】Python入门程序-【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python爬取新闻并生成Excel和下载有关图片的学习】教程文章相关的互联网学习教程文章

python操作excel表格【代码】【图】

一、xlwt写入excel1.python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。可从这里下载https://pypi.python.org/pypi。下面分别记录python读和写excel。2.Python写excel的难点不在构造一个workbook的本身，而是填充的数据，不过这不在范围内。在写excel的操作中也有棘手的问题，比如写入合并的单元格就是比较麻烦的，另外写入还有不同的样式。详细代码如下：import xlwt# 设置表格样式 def set_style...

Python之将excel文件存为csv格式，运用GGI将csv文件用网页显示【代码】【图】

一、将excel文件存为csv格式代码如下：1 import pandas as pd 2def cscx_to_csv_pd(): 3 data_csc = pd.read_excel(‘E:\Spyder\Python成绩登记信计.xlsx‘, index_col=0) 4 data_csc.to_csv(‘E:\Spyder\Python成绩登记信计.csv‘, encoding=‘gbk‘) 5if __name__ == ‘__main__‘: 6 cscx_to_csv_pd()运行结果如下：并将优秀变成90分，良好80分，及格60分，没有交0分代码如下： 1import os2import os.path3 4 csvp...

python3查询数据库并生成excel报表【代码】

#!/usr/bin/env python3 #encoding=UTF-8import os import time import xlwthostIp = ‘xxx.xxx.xxx.xx‘ user = ‘user0001‘ passwd = ‘xxxx‘ db = ‘db01‘sqlStr1 = ‘SELECT timeout_day as 逾期天数,COUNT(1) as 统计次数 FROM t_order_info where status in (7,9) GROUP BY timeout_day HAVING timeout_day <> 0;‘def createTable(selectSql,tableName):#连接数据库，执行sqlresults = os.popen(‘mysql -h‘+hostIp+‘ ...

Python Excel 读取托运单内容合并到汇总改单列表【代码】

读取托运单内容合并到汇总改单列表# 读取托运单内容合并到汇总改单列表def changeMergeToBill(t, d):# 遍历改单数据for i in range(len(t)):# 第一行不变if i == 0:continue# 按照运单号查找运单资料，空值读取原数据for x in d:if x[1] == t[i][1]:for j in range(len(x)):if t[i][j] == ‘‘:t[i][j] = x[j]return t 原文：https://www.cnblogs.com/cbig/p/13967473.html

Python操作Excel【代码】

安装模块Python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。pip2 install xlrdpip2 install xlwtxlrd是读excel xlwt是写excel# ecoding:utf-8import os import xlwtdef set_style(name, height, bold = False):style = xlwt.XFStyle() #初始化样式font = xlwt.Font() #为样式创建字体font.name = namefont.bold = boldfont.color_index = 4font.height = heightstyle.font = fontreturn s...

python创建Excel文件数据的方法【代码】

# -*- coding: utf-8 -*-# @Time : 2018/12/6 17:10# @Author : suchao# @Disc: : 生成10000条Excel数据# @File : 1000data.py# @Software: PyCharmimport xlrd ,xlwtimport random"""创建一个excel对象"""book = xlwt.Workbook(encoding=‘utf-8‘,style_compression=0)"""创建sheet"""sheet = book.add_sheet(‘test‘,cell_overwrite_ok=True)"""添加字段"""sheet.write(0, 0, ‘编号‘)sheet.write(0, 1, ‘名称‘)sh...

Python模块安装与读取Excel【图】

今天，想用Python读取一下Excel中的数据，从网上查找了一个例子，是要安装相关的模块: 1:到python官网下载http://pypi.python.org/pypi/xlrd模块安装，前提是已经安装了python环境。下好之后，把xlrd-0.9.3.tar.gz解压后,把xlrd目录直接拷贝到 python安装目录下的 Lib/site-packages/ 下，即可或者运行CMD安装: 和手工解压的也一样，会把xlrd复制到C:\Python27\Lib\site-packages下:读取Excel数据的代码 #!/usr/b...

python excel合并脚本【代码】

import pandas as pd import os# 文件路径 file_dir = r‘C:\Users\Administrator\Desktop\111‘# 构建新的表格名称 new_filename = r‘C:\Users\Administrator\Desktop\2.xlsx‘# 找到文件路径下的所有表格名称，返回列表 file_list = os.listdir(file_dir) new_list = []for file in file_list:# 重构文件路径file_path = os.path.join(file_dir,file)# 将excel转换成DataFramedataframe = pd.read_excel(file_path)# 保存到新列...

Python操作excel【代码】

Python操作excel需要使用xlrd（用来读excel）、xlwt(用来写excel)、xlutils（用来修改excel）三个模块，使用pip安装1、读excelwb=xlrd.open_workbook(‘abc.xlsx‘)#打开excel，这个excel必须存在，不存在会报错#获取所有sheet页的名字wb.sheet_names()#获取sheet页方式1：通过index获取wb.sheet_by_index(0)#一般都通过index获取，因为名字因表而异并且可以变化方式2：通过name获取wb.sheet_by_name(‘name‘)# 获取到某个单元格的...

python 对 excel 的操作

参考：https://www.php.cn/python-tutorials-422881.html 或 https://blog.51cto.com/wangfeng7399/2339556（使用openpyxl 操作）1、python 操作 excel 的库：https://blog.51cto.com/wangfeng7399/2339556 （xlrd/xlwt、openpyxl）　　a、xlrd 操作的是 xls/xlxs 格式的 excel　　b、openpyxl 只支持 xlxs 格式的excel，openpyxl 使用起来会更方便一些。　　所以：如果你只操作 xlxs 文件的话，那么可以优先选择 openpyxl，如果要...

python学习，excel操作之xlsxwriter常用操作【代码】

from datetime import datetime import xlsxwriter#打开文件 workbook = xlsxwriter.Workbook(‘Expenses03.xlsx‘) worksheet = workbook.add_worksheet()#设置粗体格式 bold = workbook.add_format({‘bold‘: 1})#设置钱币格式 money_format = workbook.add_format({‘num_format‘: ‘$#,##0‘})#设置日期格式 date_format = workbook.add_format({‘num_format‘: ‘mmmm d yyyy‘})#设置宽度 worksheet.set_column(1, 1, 15)...

python编程之赋值和拷贝的区别概述及操作excel数据库（图）【图】

python编程之赋值和拷贝的区别概述及操作excel数据库（图）一、赋值在Python中，对象的赋值就是简单的对象引用，这点和C++不同，如下所示：a = [1,2,”hello”,[‘python’, ‘C++’]] b = a在上述情况下，a和b是一样的，他们指向同一片内存，b不过是a的别名，是引用。我们可以使用bisa 去判断，返回True，表明他们地址相同，内容相同，也可以使用id()函数来查看两个列表的地址是否相同。赋值操作(包括对象作为参数、返回值)不会开...

解决 python用 xlsxwrite 向excel 中写入中文字符串变量报错【代码】

问题： UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe7 in position 7: ordinal not in range(128)分析：在网上查找，原来python的str默认是ascii编码，和unicode编码冲突，所以无法中文字符串变量写入excel。解决：在代码中加入下面几行就可以了。import sys reload(sys) sys.setdefaultencoding(‘utf8‘)原文：http://hunkz.blog.51cto.com/6157447/1697345

python 加载excel报错

from pandas import Series, DataFrameimport pandas as pdimport numpy as npimport osimport sysreload(sys)sys.setdefultencoding(‘utf-8‘)file1=pd.read_excel(‘F:/dataanalysis/statistics/PelicanStores.xlsx‘)Python 加载excel报错：IndexError: list index out of range原因是PelicanStores.xlsx 的格式有问题，有未显示的多余列。用excle打开文件PelicanStores.xlsx, 把内容复制到一个新的excel-PelicanStoresnew即可...

gcj02,bd09,wgs 左边转换python,excel

# -*- coding: utf-8 -*-import jsonimport requestsimport mathimport xlrdimport xlwtfrom xlutils.copy import copyimport osx_pi = 3.14159265358979324 * 3000.0 / 180.0pi = 3.1415926535897932384626 # πa = 6378245.0 # 长半轴ee = 0.00669342162296594323 # 偏心率平方class Geocoding: def __init__(self, api_key): self.api_key = api_key def geocode(self, address): """ 利用高德ge...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python爬取新闻并生成Excel和下载有关图片的学习

Python爬取新闻并生成Excel和下载有关图片的学习

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python爬取新闻并生成Excel和下载有关图片的学习】教程文章相关的互联网学习教程文章

python操作excel表格【代码】【图】

Python之将excel文件存为csv格式，运用GGI将csv文件用网页显示【代码】【图】

python3查询数据库并生成excel报表【代码】

Python Excel 读取托运单内容合并到汇总改单列表【代码】

Python操作Excel【代码】

python创建Excel文件数据的方法【代码】

Python模块安装与读取Excel【图】

python excel合并脚本【代码】

Python操作excel【代码】

python 对 excel 的操作

python学习，excel操作之xlsxwriter常用操作【代码】

python编程之赋值和拷贝的区别概述及操作excel数据库（图）【图】

解决 python用 xlsxwrite 向excel 中写入中文字符串变量报错【代码】

python 加载excel报错

gcj02,bd09,wgs 左边转换python,excel

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程