首页 / 爬虫 / 00010 python-入门的第一个爬虫例子

00010 python-入门的第一个爬虫例子

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了00010 python-入门的第一个爬虫例子，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1144字，纯文字阅读大概需要2分钟。

内容图文

https://www.cnblogs.com/xiaoxi-3-/p/9029065.html

python-入门的第一个爬虫例子

提取出豆瓣电影-正在上映电影名称、评分、图片的信息，提取的站点 URL 为：https://movie.douban.com/cinema/nowplaying/beijing/，提取的结果我们以文件形式保存下来。

pip3 install requests

# -*- coding: utf-8 -*-
# @Time    : 2018/5/12 上午11:37
# @Author  : xiaoxi
# @File    : test.py
import json
import re
import requests
from requests import RequestException

def get_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_page(html):
    pattern = re.compile('<li.*?list-item.*?data-title="(.*?)".*?data-score="(.*?)".*?>.*?<img.*?src="(.*?)".*?/>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield{
            'title': item[0],
            'score': item[1],
            'image': item[2],
        }

def write_to_file(content):
    with open('xiaoxi.txt', 'a', encoding='utf-8')as f:
        # print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False))

def main():
    url = "https://movie.douban.com/cinema/nowplaying/beijing/"
    html = get_page(url)
    for item in parse_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    main()

内容总结

以上是互联网集市为您收集整理的00010 python-入门的第一个爬虫例子全部内容，希望文章能够帮你解决00010 python-入门的第一个爬虫例子所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/675340.html

来源：【匿名】

【上一篇】爬虫（一）基础知识（python）【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【00010 python-入门的第一个爬虫例子】教程文章相关的互联网学习教程文章

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

相关教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫工具要求：教程中主要使用到了 1、神箭手云爬虫框架 ?这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

通过beautifulsoup对json爬取的文件进行元素审查，获取是否含有p标签# -*- coding:utf-8 -*-from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup#通过beautifulsoup解析文档def bs4analysis(html_doc):soup = BeautifulSoup(html_doc,"lxml")if soup.find_all(‘a‘):print soup.a.stringprint soup.a.nextSiblingelif html_doc.find(‘#‘)>=0:print‘有主题‘p=re.split(...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

从零起步系统入门Python爬虫工程师

第1章从零开始系统入门python爬虫工程师-课程导学（提醒：购买后记得加入课程群）课程社群技术专题讨论会第一期于3月30号晚上8点开始9点结束，bobby老师和你不见不散！这样的技术专题讨论会有很多期，大家购买完尽快加群哦。第2章开发环境搭建视频+文档教程本章节主要采用视频+文档的方式详细讲解如何在windows/linux/mac下安装和配置python、pycharm、mysql、navicat和虚拟环境。（学习的过程中遇到问题卡壳，可以及时在问答...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

Web爬虫|入门实战之糗事百科（附源码）【代码】【图】

coding by real mind writing by genuine heart 解析任务背景：https://www.qiushibaike.com/hot/ 窥探网页细节：观察每一页URL的变化第一页进入第二页再看看第三页把这些URL放在一起，观察规律1 https://www.qiushibaike.com/hot/page/1/ 2 https://www.qiushibaike.com/hot/page/2/ 3 https://www.qiushibaike.com/hot/page/3/ 从图片可以看出，该URL其他地方不变，只有最后的数字会改变，代表页数推荐使用浏览器Chrome插...

Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。2.浏览网页的过程在用...

Python爬虫入门一之综述

现在，我们已经进入到大数据时代，在对数据进行处理分析时，首要的是需要有数据，而作为数据的一个重要来源则来自于网络爬虫，鉴于Python语言的简洁高效，以及对爬虫技术的大力支持，我们选择利用Python作为主要编程语言。Python版本为2.7. 本文主要内容转自：http://cuiqingcai.com/category/technique/python，博主介绍的非常详细，所以在此打算直接拷贝过来了，也希望更多的人可以借此学习进步。首先解释一下什么是爬虫。...

python 网络爬虫入门笔记【代码】

参考：http://www.cnblogs.com/xin-xin/p/4297852.html一、简介　　爬虫即网络爬虫，如果将互联网比做成一张大网，那么蜘蛛就是爬虫。如果它遇到资源，将会抓取下来。二、过程　　在我们浏览网页时，我们经常会看到一些形形色色的页面，其实这个过程就是我们输入url，经DNS解析成对应的ip找到对应的服务器主机，向服务器发出一个请求，服务器经过解析之后将html，js等发回浏览器显示。　　其实爬虫和这个过程差不多，只不过我们在抓...

个人爬虫入门记录20171025

作为一个NBA马刺的粉丝，我想看到比赛的数据，比如比分、场均得分、助攻等等，网易NBA有专门的数据页面来展示这些数据，所以我想通过爬虫的方法，把数据抓取下来，按照我自己的想法去展示。从网上下载了一段代码，试跑了一下，能把网页的源代码下载下来。那我觉得接下来的工作就是文本处理，或者说其实爬虫的主要工作就是文本处理。从源代码中，获取、定位、剥离、存储我所需要的文本。原文：http://8107414.blog.51cto.com/...

Python爬虫简单入门及小技巧【代码】【图】

刚刚申请博客，内心激动万分。于是为了扩充一下分类，随便一个随笔，也为了怕忘记新学的东西由于博主十分怠惰，所以本文并不包含安装python（以及各种模块）和python语法。目标前几天上B站时看到一部很好玩的番剧，名字《笨女孩》，实际上是由同名的搞笑向漫画动画化的。大家都知道动画一般一周一更，很难满足我们的需求，所以我们就来编写一个爬虫，来爬取漫画咯。那么本文的目标就是爬取《初音MIX》这部漫画（因为笨女孩我已经爬...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门【代码】【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装 Linux 基础 CentOS 官网： https://www.centos.org/ 。 CentOS 官方下载链接： https://www.centos.org/download/ 。 Linux 目前在企业中广泛的应用于服务器系统，无论是写好的代码，还是使用的第三方的开源的产品，绝大多数都是部署在 Linux 上面运行的。可能很多同学一提到 Linux 就怂了，黒糊糊的一篇...

python3爬虫之入门基础和正则表达式【图】

前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；用python抓取指定页面：代码如下： import urllib.request url= "http://www.baidu.com" data = urllib.request.urlopen(url).read()# data = data.decode(UTF-8) print(d...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 00010 python-入门的第一个爬虫例子

00010 python-入门的第一个爬虫例子

内容导读

内容图文

内容总结

内容备注

内容手机端

【00010 python-入门的第一个爬虫例子】教程文章相关的互联网学习教程文章

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

一种基于迭代与分类识别方法的入门级Python爬虫【图】

从零起步系统入门Python爬虫工程师

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

Web爬虫|入门实战之糗事百科（附源码）【代码】【图】

Python爬虫入门二之爬虫基础了解

Python爬虫入门一之综述

python 网络爬虫入门笔记【代码】

个人爬虫入门记录20171025

Python爬虫简单入门及小技巧【代码】【图】

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门【代码】【图】

python3爬虫之入门基础和正则表达式【图】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程