首页 / TENSORFLOW / python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2526字，纯文字阅读大概需要4分钟。

内容图文

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。

网页：

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例 - 文章图片

动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例 - 文章图片

打开调试，清空，然后往下划。然后出现：

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例 - 文章图片

点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：

# -*- coding: utf-8 -*-
# import tensorflow as tf
# import os
# import numpy as np
import requests
import my_fake_useragent as ua
import re
import random

# 蓝色背景
def blue_print(*s, end='\n'):
    for item in s:
        print('\033[46m {} \033[0m'.format(item), end='')
    print(end=end)


# 高亮，绿色字体，红色背景
def green_print(*s, end='\n'):
    # print('\033[1m {} \033[0m'.format(s), end=end)
    for item in s:
        print('\033[1;32;41m {} \033[0m'.format(item), end='')
    print(end=end)


class download_data():
    def __init__(self):
        # 初始化常用参数
        # 请求头
        self.user_agent = ua.UserAgent()
        # 正则用于匹配响应内容中的图片url
        self.pattern_url = r'"thumbURL":"(.*?)"'


    # 爬虫：从网上下载数据集
    def get_url_from_internet(self, url):
        for i in range(5):
            try:
                # print(self.user_agent.random())
                res = requests.get(url, headers={'User-Agent': self.user_agent.random()}, timeout=5)
                # print(res.text)
                url_list = re.findall(self.pattern_url, res.text)
                # print(url_list)
                return url_list
            except:
                pass

        # 这里可以将请求失败的url存入数据库，防止数据丢失
        return None

    def write_img(self, url):
        for i in range(3):
            try:
                # 真正下载图片数据的，就这两行代码
                res = requests.get(url, headers={'User-Agent': self.user_agent.random()}, timeout=5)
                img = res.content
                # print(img)

                # 将响应内容写入本地*.jpg文件中
                with open('dataset/monkey{}.jpg'.format(random.randint(10 ** 8, 10 ** 9)), 'wb') as f:
                    f.write(img)
                print('monkey{} 下载完成'.format(random.randint(10 ** 8, 10 ** 9)))
                return
            except:
                pass

        # 这里可以将请求失败的url存入数据库，防止数据丢失
        return None

if __name__ == '__main__':
    tt = download_data()
    for page in range(0, 1000, 30):
        # 构造url，设置range的右边界越大，下载的图片就越多
        url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result            &queryWord=%E7%8C%B4%E5%AD%90+%E5%9B%BE%E7%89%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=            &hd=&latest=&copyright=&word=%E7%8C%B4%E5%AD%90+%E5%9B%BE%E7%89%87&s=&se=&tab=&width=&height=&face=            &istype=&qc=&nc=&fr=&expermode=&force=&pn={}&rn=30&gsm=&1572502599384='.format(page)
        url_list = tt.get_url_from_internet(url)
        if url_list:
            for each_url in url_list:
                tt.write_img(each_url)

什么都不打印看着不舒服，随便打印一些结果出来：

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例 - 文章图片

文件夹：

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例 - 文章图片

用网上的图片作训练集，而且还是自己抓的，效果估计不会太好。先用着看。自己手动将质量差的图片删一删。

内容总结

以上是互联网集市为您收集整理的python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例全部内容，希望文章能够帮你解决python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/675409.html

来源：【匿名】

【上一篇】python-在virtualenv中的GPU群集上运行tensorflow 【下一篇】详解tensorflow载入数据的三种方式

更多 ►

【python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例】教程文章相关的互联网学习教程文章

吴裕雄 python 神经网络——TensorFlow实现AlexNet模型处理手写数字识别MNIST数据集【代码】【图】

import tensorflow as tf# 输入数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("E:\\MNIST_data", one_hot=True)# 定义网络的超参数 learning_rate = 0.001 training_iters = 200000 batch_size = 128 display_step = 5# 定义网络的参数 # 输入的维度 (img shape: 28*28) n_input = 784 # 标记的维度 (0-9 digits) n_classes = 10 # Dropout的概率，输出的可能性 dropout = ...

tensorflow深度学习-mnist数据集读入-初试【代码】

1 import os2 os.environ[TF_CPP_MIN_LOG_LEVEL]=23 import tensorflow as tf4 from tensorflow import keras5 from tensorflow.keras import layers6 import numpy as np7 import matplotlib.pyplot as plt8 9 # from tensorflow.keras.datasets import mnist 10 # mnist is the handwriting number dataset 0-9 11 12 def load_mnist(path): 13 f=np.load(path) 14 x_train, y_train = f[x_train], f[y_train] 15 ...

python算法专项（七）——Tensorflow三层网络（进阶），训练手写字数据集、模型保存、tensorboard可视化【代码】【图】

基于算法专项六，的tensorflow原理，用三层网络结构进行训练手写字数据集目录 1-手写数字数据集1.1数据集下载1.2数据集读取1.3进行各种样式的显示测试1.3.1显示单张样本1.3.1显示多张样本在一张影像上1.3.1显示多张样本在一张影像上并且在每张影像外面加白框2-用tensorflow框架搭建三层网络，训练手写字数据集2.1技巧1，用全连接方法代替专项六中的矩阵相乘并加上偏置项操作2.2tensorflow补充知识1、tf.one_hot()使用2、tf.nn.sof...

WIN10+RTX3090显卡+TensorFlow+Unet医学图像分割（附数据集和源码）【代码】【图】

目录 Unet检测图像分割一、conda安装二、cuda11.1的安装三、cudnn的安装四、TensorFlow安装五、RTX3090环境验证六、Unet医学图像分割Unet检测图像分割最近新入手了RTX3090显卡，想找个框架试下3090性能。TensorFlow，pytorch和paddle都已经支持CUDA11了。paddle是12月20日发布paddlepaddle2.0rc1版本支持CUDA11，没来得及验证。下面说明下TensorFlow在RTX3090深度学习环境的搭建和训练。因为是新入手的台式机，所以从0开始搭建环境...

python – 数据集映射表中的Tensorflow功能列已初始化问题【代码】

我遇到了一个问题,试图在传入Dataset map方法的函数中使用Tensorflow的feature_column映射.当尝试使用Dataset.map对数据集的分类字符串特征进行热编码作为输入管道的一部分时,会发生这种情况.我得到的错误信息是： tensorflow.python.framework.errors_impl.FailedPreconditionError：表已初始化. 以下代码是重新创建问题的基本示例：import numpy as np import tensorflow as tf from tensorflow.contrib.lookup import in...

python – Tensorflow数据集API中的过采样功能【代码】

我想问一下,当前的数据集API是否允许实现过采样算法？我处理高度不平衡的阶级问题.我当时认为在数据集解析过程中对特定类进行过采样会很好,即在线生成.我已经看到了rejection_resample函数的实现,但是这会删除样本而不是复制它们,并且它减慢了批处理生成(当目标分布与初始分布大不相同时).我想要实现的是：举一个例子,看看它的类概率决定是否复制它.然后调用dataset.shuffle(…)dataset.batch(…)并获取迭代器.最好的(在我看来)方法...

python – 在Tensorflow的数据集API中,如何将一个元素映射到多个元素？【代码】

在张量流数据集管道中,我想定义一个自定义映射函数,它接受一个输入元素(数据样本)并返回多个元素(数据样本). 下面的代码是我的尝试,以及期望的结果. 我无法完全按照tf.data.Dataset().flat_map()上的文档来了解它是否适??用于此处.import tensorflow as tfinput = [10, 20, 30]def my_map_func(i):return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exceptionds = tf.data.Dataset.from_tensor_slices(input) ds ...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

一个简单的TensorFlow可视化MNIST数据集识别程序【代码】

下面是TensorFlow可视化MNIST数据集识别程序，可视化内容是，TensorFlow计算图，表（loss，直方图，标准差（stddev））# -*- coding： utf-8 -*-import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data from tensorflow.contrib.tensorboard.plugins import projectorold_v = tf.logging.get_verbosity() tf.logging.set_verbosity(tf.logging.ERROR) # 载入数据集 mnist = input_data.read_data_...

python – 使用完整数据集进行渐变下降时,TensorFlow权重会增加【代码】

我写了一篇文章深入解释神经网络如何从头开始工作. 为了说明博客文章,我在python using numpy编写了神经网络,并使用TensorFlow编写了一个版本.我在Github上传了代码来说明这个问题,但这不是一个干净的版本. 该网络的目标是根据其三个特征(公里,燃料类型,年龄)预测汽车的价格,这是我从头开始创建的玩具示例. 我从leboncoin.fr检索数据,我的数据集由大约9k辆车组成(仅限BMW系列1).我将数据标准化,使价格介于[0,1]之间,燃料类型采用二...

机器学习入门-概念、线性回归、损失函数、Tensorflow及Numpy、泛化及数据集划分【图】

文章目录一、机器学习入门概念一、基本概念机器学习：让机器进行学习和决策机器学习分类：无监督学习、监督学习、强化学习深度学习：模拟人脑，自动提取输入特征，是实现机器学习的方式之一神经网络：一种机器学习的方式二、基本术语二、线性回归与损失函数一、什么是线性回归二、方程表达三、多特征线性回归四、损失函数五、降低损失方法六、随机梯度下降和小批量梯度下降三、Tensorflow和Numpy一、什么是TensorFlow二、基本概...

tensorflow(二十四)：fashion mnist数据集，训练与测试【代码】

一、代码import tensorflow as tf from tensorflow import keras from tensorflow.keras import datasets, layers, optimizers, Sequential, metrics import osos.environ[TF_CPP_MIN_LOG_LEVEL] = 2def preprocess(x, y): #数据预处理x = tf.cast(x, dtype=tf.float32)/ 255.y = tf.cast(y, dtype=tf.int32)return x,y(x, y),(x_test, y_test) = datasets.fashion_mnist.load_data() print(x.shape, y.shape)batchsize = 128#...

【Tensorflow入门实践】第2节：MNIST数据集入门【代码】【图】

文章目录前言1、Tensorflow版本2、MNIST释义3、MNIST相关代码推荐代码 4、遇到的问题：tensorflow_dataset.load(mnist)无法下载数据集其他释义小结参考文献前言创作开始时间：2021年4月3日16:41:32 如题。讲述MNIST定义，基础信息，相关代码，以及作图展示。 1、Tensorflow版本 Tensorflow 2.4.0还要pip install tensorflow_datasets （参考：https://stackoverflow.com/questions/56920995/not-able-to-import-tensorflow-datas...

tensorflow学习笔记——获取训练数据集和测试数据集【代码】

训练神经网络模型之前，需要先获取训练数据集和测试数据集，本文介绍的获取数据集（get_data_train_test）的方法包括以下步骤： 1 在数据集文件夹中，不同类别图像分别放在以各自类别名称命名的文件夹中； 2 获取所有图像路径以及分类； 3 将分类转为字典格式； 4 将所有图像路径打乱； 5 将所有图像路径切分为训练部分和测试部分； 6 获取x部分 6.1 获取图像； 6.2 图像尺寸调整； 6.3 图像降维； 6.4 图像像素值取反； 6.5 图像像...

tensorflow(四十二)：宝可梦精灵自定义数据集加载【代码】

一、数据集加载步骤 1、获得图片路径列表给x，获得标签列表给y. 2、将数据集装载到dataset。（1） images and labels ? (adsbygoogle = window.adsbygoogle || []).push({});标签：,,,,,,,, 来源： https://www.cnblogs.com/zhangxianrong/p/14729670.html

首页 / TENSORFLOW / python3 TensorFlow训练数据集准备 下载一些百度图片 入门级爬虫示例

python3 TensorFlow训练数据集准备 下载一些百度图片 入门级爬虫示例

内容导读

内容图文

内容总结

内容备注

内容手机端

【python3 TensorFlow训练数据集准备 下载一些百度图片 入门级爬虫示例】教程文章相关的互联网学习教程文章

TENSORFLOW - 相关标签

PYTHON3 - 相关标签

TENSORFLOW - 最新教程

TENSORFLOW - 最热教程

首页 / TENSORFLOW / python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例

【python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例】教程文章相关的互联网学习教程文章