首页 / 爬虫 / 爬虫利用python爬取药监总局所列化妆品公司详细信息

爬虫利用python爬取药监总局所列化妆品公司详细信息

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫利用python爬取药监总局所列化妆品公司详细信息，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2458字，纯文字阅读大概需要4分钟。

内容图文

问题描述：
利用python来爬取药监总局所列化妆品公司详细信息
爬虫利用python爬取药监总局所列化妆品公司详细信息 - 文章图片

问题分析：
??分析网页发现，在http://scxk.nmpa.gov.cn:81/xk/页面以分页的形式展示了所有化妆品公司。
???#1.其化妆品公司的数据并非通过上述网址获取的，而是页面通过http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList发送
#ajax请求获取的
???#2.我们要获取的是化妆品公司的详细信息，点入一个公司链接，分析发现其详细信息也是通过ajax请求获取的，其中以每个公司不同的ID来区别获取详细信息???#3.我们要获取的是所有化妆品公司信息，因此需要实现分页获取
???#4.如何取得所有公司的具体ID号
???#5持久化存储，此处我是把内容分别以json格式存储和存入到excel表格中

import csv

import requests
import json
#该案例是来爬取药监总局所列化妆品公司详细信息
#分析网页发现，在http://scxk.nmpa.gov.cn:81/xk/页面以分页的形式展示了所有化妆品公司，
    #1.其化妆品公司的数据并非通过上述网址获取的，而是页面通过http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList发送
    #ajax请求获取的
    #2.我们要获取的是化妆品公司的详细信息，点入一个公司链接，分析发现其详细信息也是通过ajax请求获取的，其中以每个公司不同的ID来区别获取详细信息
    #3.我们要获取的是所有化妆品公司信息，因此需要实现分页获取
    #4.如何取得所有公司的具体ID号

url ="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"
Headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
}
id_list=[]
for i in range(1,10):   #获取多页数据
    param={
        'on': 'true',
        'page': i,
        'pageSize': '15',
        'productName':'',
        'conditionType': '1',
        'applyname':'',
        'applysn':''
    }
    response=requests.post(url=url,params=param,headers=Headers)
    dict_obj=response.json()
    for dict in dict_obj['list']:
        id_list.append(dict['ID'])    #获取企业id号,并且存入到id_list集合中

urls = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"

#持久化存储
    #用于把数据存储到excel表格中
out = open('demo4.csv', 'a', newline='')
csv_write = csv.writer(out, dialect='excel')
dict_details=[]
for id in id_list:      #遍历id,通过id获取详细信息，并把信息存入到dict_details集合中
    data={
        'id': id
    }

    response = requests.post(url=urls,headers=Headers,data=data).json()
    epsName=response['epsName']         #只是展示效果，因此这里只选择了两项信息进行写入表格
    businessPerson=response['businessPerson']
    j_str = (str(epsName),str(businessPerson))
    csv_write.writerow(j_str)
    dict_details.append(response)
fb=open('./demo4.json','w',encoding='utf-8')
json.dump(dict_details,fp=fb,ensure_ascii=False)
print('over!!!')

结果展示：
爬虫利用python爬取药监总局所列化妆品公司详细信息 - 文章图片

内容总结

以上是互联网集市为您收集整理的爬虫利用python爬取药监总局所列化妆品公司详细信息全部内容，希望文章能够帮你解决爬虫利用python爬取药监总局所列化妆品公司详细信息所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/619715.html

来源：【匿名】

【上一篇】【初学Python】01-第一个小说爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫利用python爬取药监总局所列化妆品公司详细信息】教程文章相关的互联网学习教程文章

利用python爬取点小图片，满足私欲(爬虫)【代码】

import requestsimport reimport os,syslinks=[]titles=[]headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}def get_url(page): url=‘http://www.zbjuran.com/mei/xinggan/list_13_%s.html‘%(page) data=requests.get(url,headers=headers).text data_use=re.findall(‘<div class="name"><a target="_bla...

【爬虫】毕设学习记录：python爬取静态网页（只爬取单页）【代码】

毕设题目是对指定网页内容进行正负向判断，并输出判断结果。所以只需要爬取单页面的内容即可。目标网页：在途网-哈尔滨酒店评价【第一步：客户端向目标网址（服务器）发起get请求】 import requestsdef get_html(url):#客户端向服务器发起get请求headers = {# 请求的首部信息'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','user-agent': 'Mozilla/5.0 (Windows NT 10.0;...

爬虫3-python爬取非结构化数据下载到本地【代码】【图】

urlretrieve方法通过上节爬虫2，可以将结构化数据存入mysql等数据库，但脚本中还存在非结构化数据：# print(content.xpath(//*[@dd_name="大图"]/img/@src).pop()) # 图片 python的urlretrieve方法可实现将远程数据下载本地：#url 下载链接 #filename 指定保存本地路径文件名 #reporthook 回调函数，默认缺省 #data post到服务器的数据，默认缺省 urlretrieve(url, filename=None, repo...

爬虫利用python爬取药监总局所列化妆品公司详细信息【代码】【图】

问题描述：利用python来爬取药监总局所列化妆品公司详细信息问题分析： ??分析网页发现，在http://scxk.nmpa.gov.cn:81/xk/页面以分页的形式展示了所有化妆品公司。 ???#1.其化妆品公司的数据并非通过上述网址获取的，而是页面通过http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList发送 #ajax请求获取的 ???#2.我们要获取的是化妆品公司的详细信息，点入一个公司链接，分析发现其详细信息也是通过aj...

Python爬取酷我音乐(收费也可)，这就是爬虫的魅力！【代码】【图】

详细进入酷我音乐的网站到搜索界面输入歌名进去打开开发者工具会发现这个包它里面包含了这一页的音乐数据，我们需要的是这个参数然后开始写代码吧，先找到所需的音乐数据 import requests import json import osdef music_download():kw = input("请输入音乐名称：")# 请求头headers = {xian"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36...

Python 爬取豆瓣电影Top250排行榜，爬虫初试【代码】

from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error# 访问url def ask_url(url):# 伪装浏览器head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}req = urllib.request.Request(url, headers=head) # 包装try:response = urllib.request.urlopen(req, timeout=3) # 访问...

python爬虫教程：实例讲解Python爬取网页数据【代码】

这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程，有兴趣的朋友跟着学习下吧。一、利用webbrowser.open()打开一个网站： >>> import webbrowser >>> webbrowser.open('http://i.firefoxchina.cn/?from=worldindex') True实例：使用脚本打开一个网页。所有Python程序的第一行都应以#!python开头，它告诉计算机想让Python来执行这个程序。（我没带这行试了试，也可以，可能这是一种规范吧） 1.从sys.argv读取...

python爬虫教程：《利用Python爬取表情包》【代码】

python爬虫教程：《利用Python爬取表情包》，微信没有表情包？不用愁！老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程：《利用Python爬取表情包》，微信没有表情包？不用愁！老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程：《利用Python爬取表情包》，微信没有表情包？不用愁！老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程：《利用Python爬取表情包》，微信没有表情包？不用愁！老...

python爬取美团信息数据，人生第一个爬虫程序

#!/usr/bin/env python #-- coding:utf-8 -- import requests import re import json import time import random from requests.exceptions import RequestException def get_ono_page(url): “”" 获取一个页面数据,并下载数据 “”" headers = {“User-Agent”:“Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)” } try: response = requests.get(url,headers=headers) if response.status_code == 200: #pri...

python爬取网站数据，如何绕过反爬虫策略

1、使用session对象session = requests.session() strhtml = session.get(url) #与当前网站的首次会话2、设置headersheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/69.0.3497.100 Safari/537.36", "Accept": "application/json"} session.headers = headers3、设置cookies设置与网站首次会话时的cookies为默认的coo...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 爬虫利用python爬取药监总局所列化妆品公司详细信息

爬虫利用python爬取药监总局所列化妆品公司详细信息

内容导读

内容图文

内容总结

内容备注

内容手机端

【爬虫利用python爬取药监总局所列化妆品公司详细信息】教程文章相关的互联网学习教程文章

利用python爬取点小图片，满足私欲(爬虫)【代码】

【爬虫】毕设学习记录：python爬取静态网页（只爬取单页）【代码】

爬虫3-python爬取非结构化数据下载到本地【代码】【图】

爬虫利用python爬取药监总局所列化妆品公司详细信息【代码】【图】

Python爬取酷我音乐(收费也可)，这就是爬虫的魅力！【代码】【图】

Python 爬取豆瓣电影Top250排行榜，爬虫初试【代码】

python爬虫教程：实例讲解Python爬取网页数据【代码】

python爬虫教程：《利用Python爬取表情包》【代码】

python爬取美团信息数据，人生第一个爬虫程序

python爬取网站数据，如何绕过反爬虫策略

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / 爬虫 利用python爬取药监总局所列化妆品公司详细信息

爬虫 利用python爬取药监总局所列化妆品公司详细信息

内容导读

内容图文

内容总结

内容备注

内容手机端

【爬虫 利用python爬取药监总局所列化妆品公司详细信息】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / 爬虫利用python爬取药监总局所列化妆品公司详细信息

爬虫利用python爬取药监总局所列化妆品公司详细信息

【爬虫利用python爬取药监总局所列化妆品公司详细信息】教程文章相关的互联网学习教程文章