首页 / 爬虫 / 股票数据爬虫

股票数据爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了股票数据爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1885字，纯文字阅读大概需要3分钟。

内容图文

技术分享图片

老虎社区

‘https://www.laohu8.com/stock/‘

技术分享图片

百度股票不行了

技术分享图片

            import
             requests

            import
             re

            from bs4 import  BeautifulSoup
import collections
import traceback
def getHtmlText(url):
    try:
      kv = {‘user-agent‘:‘Mozilla/5.0‘}
      r = requests.get(url,headers = kv)
      # print(r.status_code)      r.raise_for_status()
      #print(r.apparent_encoding) GB2312  #r.encoding = r.apparent_encoding() GB2312 无法获取信息
      r.encoding = ‘utf-8‘#这步必须要return r.text
    except:
      return""def getstocklist(list,stock_url):
     html = getHtmlText(stock_url)
     soup = BeautifulSoup(html,‘html.parser‘)
     a = soup.find_all(‘a‘)
     for  i in a:
         try:
            href = i.attrs[‘href‘]
            list.append(re.findall(r"\d{6}",href)[0]) #查找股票代码except:
               continueprint(len(list))    

def getstockinfo(list,stock_url,path):
    cnt  = 0
    for stock in list:
        url = stock_url+stock
        html = getHtmlText(url)
        try:
            if html == ‘‘:
                 continue
            infodict = collections.OrderedDict()#为了后面按照插入顺序写入文件
            soup = BeautifulSoup(html,‘html.parser‘)
            stock_name =  soup.find_all(‘h1‘,attrs = {‘class‘:‘name‘})[0]
            
            name = stock_name.text.split()[0]
            infodict[‘股票名称‘]  = name

            stockinfo = soup.find(‘div‘,attrs = {‘class‘:‘detail-data‘})
            key_list = stockinfo.find_all(‘dt‘)
            value_list = stockinfo.find_all(‘dd‘)
            for  i in  range(len(key_list)):
                key = key_list[i].text
                value = value_list[i].text
                infodict[key] = value
            
            with open(path,‘a‘,encoding=‘utf-8‘) as f:#‘a‘:新的内容会加到已有内容的后面
                f.write(str(infodict)+‘\n‘)
                cnt = cnt+1
                print(‘\r当前进度:{:.2f}%‘.format(cnt*100/len(list)),end=‘‘)#\r 表示将光标的位置回退到本行的开头位置
        except:
               cnt  = cnt  +1
               print(‘\r当前进度:{:.2f}%‘.format(cnt*100/len(list)),end=‘‘)
               continuedef main():
     stock_list_url = ‘http://quote.eastmoney.com/stock_list.html‘
     stock_info_url = ‘https://www.laohu8.com/stock/‘
     output_file = ‘laohu_stock.txt‘
     list = []
     getstocklist(list,stock_list_url)
     getstockinfo(list,stock_info_url,output_file)

main()

getstockinfo():

技术分享图片

getstockinfo

技术分享图片

laohu_stock.txt 部分截图

技术分享图片

原文：https://www.cnblogs.com/tingtin/p/13018966.html

内容总结

以上是互联网集市为您收集整理的股票数据爬虫全部内容，希望文章能够帮你解决股票数据爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1247642.html

来源：【匿名】

【上一篇】Python爬虫b站视频弹幕并生成词云图分析【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【股票数据爬虫】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

爬虫——使用多进程爬取视频数据【代码】【图】

以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据，并保存到本地。一、分析网页　　打开抓取网页，查看网页代码结构，发现网页结构里面存放视频的地址并不是真正的视频地址。　　　　　　　　　　进入视频详情页面查看后，可以在response中找到真正的视频地址。保存这个地址的并不是标签，而是一个变量，我们使用re来解析这个变量，提取信息。　　　　　　　　二、代码实现"""使用多线程爬取梨...

爬虫再探实战（五）———爬取APP数据——超级课程表【二】——词频分析【代码】【图】

上一篇已经将数据抓到手了，那么来分析一下吧。这里是用python简单处理数据，之后用EXCEL 作图，没错，，，还是EXCEL。其实分析这些数据有更好的工具，比如R。。。不过目前不会啊，就先EXCEL凑活着用吧。　　　　这里一共分析了三个方面：TOP10 word；时间与发帖量的关系，日期与发帖量的关系。　　　　PROJECT1：TOP10 WORD　　　　注意这里的top_words.txt是我用xlrd取出文字后保存在记事本中，去掉标点后得到的（这个羞耻的过程...

Python爬虫爬取房天下数据-入MySql数据库【代码】【图】

Python爬取房天下某城市数据随着互联网时代的兴起，技术日新月异，掌握一门新技术对职业发展有着很深远的意义，做的第一个demo，以后会在爬虫和数据分析方便做更深的研究，本人不会做详细的文档，有哪里不足的地方，希望大牛们指点讲解。废话不多说，上代码。你需要的技能：（1）对前端知识熟悉会调试浏览器（2）熟练python基础知识，对一些常用的库熟练掌握（3）掌握一般关系型数据库import requests as req import time import p...

Python爬虫_三种数据解析方式【代码】

正则解析单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W : 非\w\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S : 非空白数量修饰：* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} ：固定m次 hello{3,}{m,} ：至少m次{m,n} ：m-n次边界：$ : 以某某结尾 ^ : 以某某开头分组：(ab) 贪婪模式：...

R-大数据分析挖掘（2-R爬虫）【代码】

RCurl作者：==RCurl、XML、RSPython、Rmatlab个人主页：http://anson.ucdavis.edu/~duncan/（一）什么是curl curl：利用URL语法在命令行的方式下工作的开元文件传输工具 curl背后的库就是libcurl 功能为：获得页面，有关认证，上传下载，信息搜索（二）Http协议目前使用的是HTTP/1.1它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器（三）Rcurl三大函数1.install.packages("RCurl")2.getUrl()getF...

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据【代码】

目标：爬取安居客网站上前10页北京二手房的数据，包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为：https://beijing.anjuke.com/sale/BeautifulSoup官网：https://www.crummy.com/software/BeautifulSoup/直接上代码：import requests from bs4 import BeautifulSoupheaders={‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0....

Python爬虫实战（一）使用urllib库爬取拉勾网数据【代码】

本笔记写于2020年2月4日。Python版本为3.7.4，编辑器是VS code主要参考资料有：B站视频av44518113Python官方文档PS：如果笔记中有任何错误，欢迎在评论中指出，我会及时回复并修改，谢谢问题描述看B站学习视频的时候，老师讲得第一个实战也就是爬取拉勾网数据是怎么也爬取不下来，弹幕里的方法也都不管用。所以开始求助伟大的度娘，度娘中大部分的解决方法都是使用requests库来爬取的，但目前只学习的urllib库，所以没办法采用。但...

python爬虫学习笔记(十)-数据提取之JsonPath的使用【代码】

1. JSON与JsonPATHJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 中自带了JSON模块，直接import json就可以使用了。官方文档：http://docs.python.org/library/json.htmlJson在线解析网站：http://www.json.cn/#2. JSONjson简单说就是java...

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中【代码】【图】

将数据爬取到内存中import urllib import urllib.request import re #打开京东网页并且进行读取，解码格式utf-8,ignore小细节自动略过，大大减少出错率 #将数据爬到内存中 #http://www.jd.com url = "http://www.jd.com" data = urllib.request.urlopen(url).read().decode("utf-8","ignore") pat = "<title>(.*?)</title>"#re.S模式修正符，网页数据往往是多行的，避免多行的影响print(re.compile(pat,re.S).findall(data))将数据...

Python3爬虫（八）数据存储之TXT、JSON、CSV【代码】

Infi-chu:http://www.cnblogs.com/Infi-chu/TXT文本存储TXT文本存储，方便，简单，几乎适用于任何平台。但是不利于检索。1.举例：使用requests获得网页源代码，然后使用pyquery解析库解析import requests from pyquery import PyQuery as pqurl = ‘https://www.zhihu.com/explore‘ header = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)‘ } html = requests.get(url,headers...

Python 爬虫大量数据清洗 ---- sql语句优化【代码】

1. 问题描述在做爬虫的时候，数据量很大，大约有五百百万条数据，假设有个字段是conmany_name（拍卖公司名称）,我们现在需要从五百万条数据里面查找出来五十家拍卖公司，　　并且要求字段 time（时间）大于7月一号，小于10月31号。2. 问题解决我们首先想到的解决办法是添加索引，对拍卖公司字段添加索引，但是因为日期是大于7月1号，小于10月31号，在这里用索引的效率很低，　　并且要重复的查询出来五十家公司，效率很低，有没有...

Python+PyQt5设计B站视频数据爬虫小程序【代码】【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。以下文章来源于菜J学Python ，作者J哥前言目前，市场上有大量 Python图形用户界面（GUI）开发框架可供选择，如wxpython 、pyqt5、Gtk、Tk等。本文将用Python结合PyQt5制作一款B站视频数据爬虫小程序，可以通过输入关键字、页码以及选择存储路径后，下载相应的数据，效果如下：以下将详细介绍这个GUI工具的制作方法，如需本文...