首页 / 爬虫 / 一个很小的爬虫，演示了爬一首词，后存进txt文件中去

一个很小的爬虫，演示了爬一首词，后存进txt文件中去

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了一个很小的爬虫，演示了爬一首词，后存进txt文件中去，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1438字，纯文字阅读大概需要3分钟。

内容图文

一个很小的爬虫，演示了爬一首词，后对数据进行清洗，后存进txt文件中去

        import requests,re
        

        from bs4 import BeautifulSoup
        

        url="https://trade.500.com/sfc/"
        

        url2="https://so.gushiwen.org/shiwenv_4d3b4d132c82.aspx"
        

        req=requests.get(url2)
        

        if req.status_code==200:
        

            if req.encoding=="gbk" or req.encoding=="ISO-8859-1":
        

                html = req.content.decode("GBK")
        

            else:
        

                html=req.text
        

            soup = BeautifulSoup(html, ‘lxml‘)
        

            # 使用正则来查找
        

            # 查找标签是h1-h7的所有数据
        

            # result=soup.findAll(re.compile("h[1-7]"))
        

            # 查找标签是a的所有数据，加一个找内容包含有“500”字的所有标签与内容
        

            # result2=soup.findAll("a",text=re.compile(".*(500)+.*"))
        

            #查找外链的相关信息,即href="http://..."或"https://..."
        

            # result3=soup.findAll("a",attrs={"href":re.compile("^(http\:)|^(https\:).*")})
        

            #使用导航树来查找
        

            # soup.body.children
        

            # soup.body.descendants
        

            # soup.body.find("div").next_siblings
        

            # soup.body.find("div").parent
        

            #得到所有源码
        

            # print(soup)
        

            #获取标题：
        

            title=soup.findAll("h1")
        

            title=[x.text for x in title]
        

            title="".join(title)
        

            print(title)
        

            #获取内容：
        

            # content=soup.body.findAll("div",id="contson4d3b4d132c82")
        

            content=soup.body.findAll("div",attrs={"id":"contson4d3b4d132c82"}) #效果同上一句
        

            content=[x.text for x in content]
        

            #数据内容清洗：
        

            content = "".join(content).strip()  #去空格
        

            # content=re.sub("原字符","替换的字符",content)
        

            # content=re.sub("\(.*?\)","",content) #.*?是懒惰匹配，不用？就是无敌匹配
        

            print(content)
        

            #最后写入txt文件中
        

            with open(f"{title}.txt","w",encoding="utf-8") as f:
        

                f.write(title+"\n"+content)
        

        

        

        else:
        

            print("连接不成功，请检查程序及网络？")

原文：https://www.cnblogs.com/yiyea/p/11442405.html

内容总结

以上是互联网集市为您收集整理的一个很小的爬虫，演示了爬一首词，后存进txt文件中去全部内容，希望文章能够帮你解决一个很小的爬虫，演示了爬一首词，后存进txt文件中去所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1204997.html

来源：【匿名】

【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【一个很小的爬虫，演示了爬一首词，后存进txt文件中去】教程文章相关的互联网学习教程文章

一个很小的爬虫，演示了爬一首词，后存进txt文件中去【代码】

一个很小的爬虫，演示了爬一首词，后对数据进行清洗，后存进txt文件中去import requests,refrom bs4 import BeautifulSoupurl="https://trade.500.com/sfc/"url2="https://so.gushiwen.org/shiwenv_4d3b4d132c82.aspx"req=requests.get(url2)if req.status_code==200: if req.encoding=="gbk" or req.encoding=="ISO-8859-1": html = req.content.decode("GBK") else: html=req.text soup = BeautifulSoup(...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

python爬虫12--文件存储之非关系型数据库存储Redis【代码】

1.Redis连接启动服务：cd redis的安装路径------>redis-server.execd redis的安装路径------>redis-clipython中连接redis：#第一种连接from redis import StrictRedis redis = StrictRedis(host=‘localhost‘,port=6379,db=0) #第二种连接from redis import StrictRedis,ConnectionPool pool = ConnectionPool(host=‘localhost‘,port=6379,db=0) redis = StrictRedis(connection_pool=pool) redis.set(‘name‘,‘bob‘) print(...

spider 爬虫文件基本参数(3)【代码】【图】

一代码 # -*- coding: utf-8 -*-import scrapyclass ZhihuSpider(scrapy.Spider):# 爬虫名字,名字唯一,允许自定义name = ‘zhihu‘# 允许爬取的域名,scrapy每次发起的url爬取数据,先回进行域名检测,检测通过就爬取allowed_domains = [‘zhihu.com‘]#发起的起始url地址,scrapy项目启动自动调用start_request()方法,把start_urls# url的作为请求url发起请求,把获取到的response交给回调函数,回调函数传递给parse# 解析数据start_ur...

第十八节：Scrapy爬虫框架之settings文件详解【代码】

# -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://doc.scrapy.org/en/latest/topics/settings.html# https://doc.scrapy.org/en/latest/topics/downloader-middleware.html# https://doc.scrapy.org/en/latest/topics/spider-middlewa...

【转载】Python2爬虫之爬取某一路径的所有html文件【代码】

1# -*- coding: UTF-8 -*- 2import re3import urllib24 5from collections import deque6 7# 保存文件的后缀 8 SUFFIX=‘.html‘ 9# 提取文章标题的正则表达式10 REX_TITLE=r‘<title>(.*?)</title>‘11# 提取所需链接的正则表达式12 REX_URL=r‘/jdbc/(.+?).html‘13# 种子url，从这个url开始爬取14 BASE_URL=‘http://www.yiibai.com/jdbc/‘151617# 将获取到的文本保存为html文件18def saveHtml(file_name,file_content): 19# ...

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫【代码】【图】

摘要：根据Excel文件配置运行多个爬虫很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。首先创建一个名为generic的工程和一个名为fromcsv的spider：scrapy startproject generic cd generic scrapy genspider fromcsv example.com然后创建一个csv文件，...

关于Java网络爬虫---模拟txt文件上传操作。

业务需求是这样的，公司400业务中客户使用的，400电话号码，可以添加多个目的码你可以理解为转接号码；这些配置的目的码我们会在网关服务器上配置成白名单，既拥有某些权限。先提出的要求是先添加或者变动目的码要及时同步到网关。场景：　　1.我们的网关服务器接受的白名单（目的码）是已txt文件上传的，数据按照制定的格式保存在txt里面。　　2.利用Java网络爬虫模拟txt文件上传。------2018-4-7现在不写了，代码在公司电脑上明天...

Python爬虫下载视频文件部分源码【代码】【图】

分享一下我自己整理的代码，改两个参数就可使用（扫描下方二维码获取python学习资料）import requests import time headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36‘ } movie_url = ‘在这里输入视频地址，例如：http://www.***********.mp4‘ movie_name = ‘视频标题‘ downsize = 0 print(‘开始下载‘) startTi...

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

!/usr/bin/env python # -*- coding: utf-8 -*- # 日志管理 import logging import sys reload(sys) sys.setdefaultencoding(‘utf-8‘)def getlogger(logName, logFile):logger=logging.getLogger(logName)logger.setLevel(logging.DEBUG)screenHandle = logging.StreamHandler()screenHandle.setLevel(logging.DEBUG)fileHandle = logging.FileHandler(logFile,‘a‘)fileHandle.setLevel(logging.DEBUG)formatter = logging.For...

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*- # 日志管理 import logging import sys reload(sys) sys.setdefaultencoding(utf-8)def getlogger(logName, logFile):logger=logging.getLogger(logName)logger.setLevel(logging.DEBUG)screenHandle = logging.StreamHandler()screenHandle.setLevel(logging.DEBUG)fileHandle = logging.FileHandler(logFile,a)fileHandle.setLevel(logging.DEBUG)formatter = logging.Formatter(...

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版【图】

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后url发生了一点变化，变成了： http://tieba.baidu.com/p/2296712428?se...

如何使用爬虫获取zetv网站中的视频文件？【图】

http://www.zetv.com.cn/play.a... 请问如何获取其中的视频文件回复内容：http://www.zetv.com.cn/play.a... 请问如何获取其中的视频文件我的思路是通过curl获取页面的所有内容，再通过正则匹配出你所需要的内容，再建立下载请求。看了下,这个视频播放使用的rtmp协议 rtmp百科, 通过http是得不到视频的.如果你确实需要下载,也有办法,有一个叫rtmpdump的软件可以下载, http://rtmpdump.mplayerhq.hu/ 试过了,能下载,速度有些慢....

javascript-Python逐行读取txt中的url文件并进行爬虫

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx回复内容：毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课...

Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件的方法【图】

接着这篇文章Node.js+jade抓取博客所有文章生成静态html文件的实例继续，在这篇文章中实现了采集与静态文件的生成，在实际的采集项目中，应该是先入库再选择性的生成静态文件。那么我选择的数据库是mongodb,为什么用这个数据库，因为这个数据库是基于集合，数据的操作基本是json，与dom模块cheerio具有非常大的亲和力，cheerio处理过滤出来的数据，可以直接插入mongodb,不需要经过任何的处理，非常的便捷，当然跟node.js的亲和力...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 一个很小的爬虫，演示了爬一首词，后存进txt文件中去

一个很小的爬虫，演示了爬一首词，后存进txt文件中去

内容导读

内容图文

内容总结

内容备注

内容手机端

【一个很小的爬虫，演示了爬一首词，后存进txt文件中去】教程文章相关的互联网学习教程文章

爬虫 - 最新教程

爬虫 - 最热教程