首页 / PYTHON / python 爬取36kr 7x24h快讯

python 爬取36kr 7x24h快讯

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 爬取36kr 7x24h快讯，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3034字，纯文字阅读大概需要5分钟。

内容图文

url为https://36kr.com/newsflashes,抓包后发现第一次的新闻内容就是包含在<script>var props={}></script>标签中,具体的是在props中的key为newsflashList|newsflash的列表中紧着我又让页面多加载了一些,发现此时请求地址有了些变化,此时返回的内容是json字符串了

python 爬取36kr 7x24h快讯 - 文章图片

仔细研究下请求中的bid其实和返回的items中的最后一个id是相同的,这意味着我们可以第一次请求https://36kr.com/newsflashes,解析其中的props标签,然后获得最后一个id,接下来构造新的url时就可以采用形如https://36kr.com/api/newsflash?b_id=160678&per_page=20&_=1553412863268格式的地址了,测试发现只需要https://36kr.com/api/newsflash?b_id=160678&per_page=20就可以了,这个地址其实是多了层"api",测试时发现构造这种https://36kr.com/newsflashes?b_id=160680&per_page=20这个地址没有那层"api",所以返回的也是html,解析props标签同样可以获得数据

好了,综上我们有了两种思路,第一种是请求https://36kr.com/newsflashes,正则解析props.然后获得id,构造返回值为json字符串的url,第二种也是请求https://36kr.com/newsflashes,解析props.然后获得id,

构造返回html内容的url,之后也是使用正则解析props标签,但实际测试时这种效率有点低,因为大规模的使用了正则匹配,

所以我使用了第一种方式,此外使用第一种方式我们可以指定per_page,虽然过大容易被封IP

 1 # -*- coding: utf-8 -*-
 2 # @author: Tele
 3 # @Time    : 2019/3/24 0024 下午 12:56
 4 import re
 5 import json
 6 import requests
 7 import os
 8 from pprint import pprint
 9 
10 
11 class NewsFlashesSplider:
12     def __init__(self):
13         # "https://36kr.com/newsflashes?b_id={}&per_page=20"
14         self.url = "https://36kr.com/newsflashes"
15         self.headers = {
16             "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
17         }
18         self.file_dir = "./newsflashes.txt"
19 
20     def parse_url(self):
21         response = requests.get(self.url, headers=self.headers)
22         ret = json.loads(response.content.decode())["data"]["items"]
23 
24         print(ret)
25 
26         size = len(ret)
27         last_id = int(ret[size - 1]["id"])
28         with open(self.file_dir, "a", encoding="utf-8") as file:
29             file.write(json.dumps(ret, ensure_ascii=False))
30             file.write("\r\n")
31         return size, last_id
32 
33     def run(self):
34         if os.path.exists(self.file_dir):
35             os.remove(self.file_dir)
36             print("文件已清空")
37 
38         # 第一次请求获得当前最新的新闻
39         response = requests.get(self.url, headers=self.headers)
40         result = re.compile("<script>var props=(.*),locationnal=").findall(response.content.decode())
41         ret = json.loads(result[0])["newsflashList|newsflash"]
42 
43         # 新闻个数,最后一个id
44         tuple_result = len(ret), int(ret[len(ret) - 1]["id"])
45 
46         while True:
47             self.url = "https://36kr.com/api/newsflash?b_id={}&per_page=20".format(tuple_result[1])
48             tuple_result = self.parse_url()
49             if tuple_result[0] < 20:
50                 break
51 
52 
53 def main():
54     splider = NewsFlashesSplider()
55     splider.run()
56 
57 
58 if __name__ == '__main__':
59     main()

内容总结

以上是互联网集市为您收集整理的python 爬取36kr 7x24h快讯全部内容，希望文章能够帮你解决python 爬取36kr 7x24h快讯所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/835336.html

来源：【匿名】

【上一篇】Python 一键转 Java？“Google 翻译”你别闹【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python 爬取36kr 7x24h快讯】教程文章相关的互联网学习教程文章

python爬取网业信息案例【代码】【图】

需求：爬取网站上的公司信息代码如下：import json import os import shutil import requests import re import timerequests.packages.urllib3.disable_warnings()#通过url请求接口，获取返回数据def getPage(url,headers):try:response = requests.get(url=url, headers=headers, verify=False)response.encoding = ‘utf-8‘if response.status_code == 200:#print (response.text)return response.textelse:print(‘请求异常：...

Python爬取博客园新闻代码【代码】【图】

核心模块：requests ：安装指令 pip3 install requestsBeautifulSoup :安装指令 pip3 install beautifulsoup4代码：import requests import bs4 import osresponse=requests.get(‘https://news.cnblogs.com/‘) response.encoding=response.apparent_encodingfrom bs4 import BeautifulSoup soup=bs4.BeautifulSoup(response.text,features=‘html.parser‘) newslist=soup.find_all(‘div‘,class_="content") #print(newslist)f...

利用Python爬取豆瓣电影【代码】【图】

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影:我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE　　有3个字段是非常重要的:　　　　1.sort=T　　　　2.range=0,10　　　　3.tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%9...

【学习笔记】python爬取百度真实url【代码】【图】

今天跑个脚本需要一堆测试的url，，，挨个找复制粘贴肯定不是程序员的风格，so，还是写个脚本吧。环境：python2.7 编辑器：sublime text 3 一、分析一下首先非常感谢百度大佬的url分类非常整齐，都在一个类下 650) this.width=650;" src="/upload/getfiles/default/2022/11/5/20221105094416540.jpg" title="QQ截图20170908143211.png" /> 即c-showurl,所以只要根据css爬取链接就可以，...

Python爬取内涵段子里的段子【代码】【图】

环境：Python3.6#!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛'import requests import jsondef get_json_dic(url): global dict_json response = requests.get(url=url) json_response = response.content.decode() #获取r的文本就是一个json字符串 dict_json = json.loads(json_response) # 将json字符串转换成dic字典对象 return dict_jsondef get_joke(dict_json): ...

2018-7-12python爬取历史天气数据【代码】

2018-7-12python爬取历史天气数据python 爬虫天气数据需求需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。from bs4 import BeautifulSoup as bsp import urllib,http.cookiejar,re,time #对excel的操作，可以添加sheetimport xlwt #拼接两个csvimport glob import time# 做好cookie管理工作 cookie=http.cookiejar.CookieJar() # 创建空CookieJar cj=urllib.r...

Python爬取电影天堂指定电视剧或者电影【代码】【图】

1.分析搜索请求一位高人曾经说过，想爬取数据，要先分析网站今天我们爬取电影天堂，有好看的美剧我在上面都能找到，算是很全了。这个网站的广告出奇的多，用过都知道，点一下搜索就会弹出个窗口，伴随着滑稽的音乐，贪玩蓝月？通过python，我们可以避免广告，直接拿到我们要的东西我用的是火狐浏览器，按F12打开开发者工具，选择网络按照正常的操作顺序，其实python就是在模拟人进行一些网页操作，我们只不过通过python解放自己的双...

毕设一:python 爬取苏宁的商品评论【代码】【图】

毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_poolua:fake_useragent 1# 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.com/recommend-portal/recommendv2/biz.jsonp?parameter=%E5%8D%8E%E4%B8%BA&sceneIds=2-1&count=103 4# 评价 5 https://review.suning.com/ajax/cluster_review_lists/general-30259269-000000010748901691-0000000000-total-1-d...

Python3爬取Wallhaven.cc图片【代码】【图】

https://wallhaven.cc/ 上有很多优秀壁纸图片，网站访问速度有点慢，还是抓下来看比较方便。1、安装python32、pip安装requests、lxml3、运行代码 # -*- coding: utf-8 -*- #wallhaven爬取import os from urllib.parse import urlencode import time from requests import codes import random import requests from lxml import etree#定义创建文件路径函数，将下载的文件存储到该路径def CreatePath(filepath):ifnot os.path.exi...

第一篇博客（python爬取小故事网并写入mysql）【代码】

前言：　　这是一篇来自整理EVERNOTE的笔记所产生的小博客，实现功能主要为用广度优先算法爬取小故事网，爬满100个链接并写入mysql，虽然CS作为双学位已经修习了三年多了，但不仅理论知识一般，动手能力也很差，在学习的空余时间前前后后DEBUG了很多次，下面给出源代码及所遇到的BUG。　　本博客参照代码及PROJECT来源：http://kexue.fm/archives/4385/源代码： 1import requests as rq2import re3import codecs4import queue5impo...

python爬取商品信息【代码】

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。需求：某网的商品信息，包括商品名，市场价和售价工具：python2.7.8，urllib2，re#coding = utf-8import urllib2 import repath = "aaa.txt" f = open(path, ‘w+‘)for i in range(4980, 4991):print i# get webpage contenturl = "http://*" + str(i) + "*"page = urllib2.urlopen(url).read()# Regular matchingmatchTitle = re.search(r‘...

python爬图【代码】

闲的无事，看着知乎里种种python优点，按捺不住，装起python3.4。网上找了点爬行图片的代码，修改至兼容3.4，成功爬行指定url所有jpg图片，代码段如下：import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object):def__init__(self, url):self.url = urldef parse(self,content):pattern = ‘src="(http://.*\.jpg)\s*"‘matchs = re....

python爬取网页图片并保存到本地【代码】【图】

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return html.text将其先导入文本文件观察发现图片的地址所在...

Python爬取淘宝店铺和评论【代码】

1 安装开发需要的一些库(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:...

Python 爬取qqmusic音乐url并批量下载【代码】

qqmusic上的音乐还是不少的，有些时候想要下载好听的音乐，但有每次在网页下载都是烦人的登录什么的。于是，来了个qqmusic的爬虫。　　至少我觉得for循环爬虫，最核心的应该就是找到待爬元素所在url吧。下面开始找吧（讲的不对不要笑我）#寻找url：　　这个url可不想其他的网站那么好找。把我给累得不轻，关键是数据多，从那么多数据里面挑出有用的数据，最后组合为music真正的music。昨天做的时候整理的几个中间url：#url1：https...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python 爬取36kr 7x24h快讯

python 爬取36kr 7x24h快讯

内容导读

内容图文

内容总结

内容备注

内容手机端

【python 爬取36kr 7x24h快讯】教程文章相关的互联网学习教程文章

python爬取网业信息案例【代码】【图】

Python爬取博客园新闻代码【代码】【图】

利用Python爬取豆瓣电影【代码】【图】

【学习笔记】python爬取百度真实url【代码】【图】

Python爬取内涵段子里的段子【代码】【图】

2018-7-12python爬取历史天气数据【代码】

Python爬取电影天堂指定电视剧或者电影【代码】【图】

毕设一:python 爬取苏宁的商品评论【代码】【图】

Python3爬取Wallhaven.cc图片【代码】【图】

第一篇博客（python爬取小故事网并写入mysql）【代码】

python爬取商品信息【代码】

python爬图【代码】

python爬取网页图片并保存到本地【代码】【图】

Python爬取淘宝店铺和评论【代码】

Python 爬取qqmusic音乐url并批量下载【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程