首页 / 爬虫 / 【java爬虫】利用webmagic框架实战demo

【java爬虫】利用webmagic框架实战demo

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【java爬虫】利用webmagic框架实战demo，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3662字，纯文字阅读大概需要6分钟。

内容图文

webmagic框架:http://webmagic.io/

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件

PageProcessor主要分为三个部分，分别是爬虫的配置、页面元素的抽取和链接的发现。

Pipeline用于保存结果的组件，下面我们实现自定义Pipeline，可以实现保存结果到文件、数据库等一系列功能

很多功能自己进去慢慢研究哈，这里就不一一赘述了。

下面直接进入主题，爬我的博客首页的数据：https://www.cnblogs.com/loaderman/

查看首页的源码研究一下下：

【java爬虫】利用webmagic框架实战demo - 文章图片

第一步：maven配置webmagic 详见：http://webmagic.io/docs/zh/posts/ch2-install/with-maven.html

第二步：直接根据文档进行编码实战：

定义实体类

public class LoadermanModel {
    private String title;
    private String detailUrl;
    private String content;
    private String date;

    public LoadermanModel() {
    }

    public LoadermanModel(String title, String detailUrl, String content, String date) {
        this.title = title;
        this.detailUrl = detailUrl;
        this.content = content;
        this.date = date;
    }

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public String getDetailUrl() {
        return detailUrl;
    }

    public void setDetailUrl(String detailUrl) {
        this.detailUrl = detailUrl;
    }

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    }

    public String getDate() {
        return date;
    }

    public void setDate(String date) {
        this.date = date;
    }
}

自定义PageProcessor

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.ArrayList;
import java.util.List;

public class LoadermanPageProcessor implements PageProcessor {
    // 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
    private Site site = Site.me().setRetryTimes(5).setUserAgent("User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0");

    @Override
    public void process(Page page) {
        List<String> pageItemList = page.getHtml().xpath("//div[@class='post']").all();
        ArrayList<LoadermanModel> list = new ArrayList<>();
        for (int i = 0; i < pageItemList.size(); i++) {
            Html html = Html.create(pageItemList.get(i));
            LoadermanModel loadermanModel=new LoadermanModel();
            loadermanModel.setTitle(html.xpath("//a[@class='postTitle2']/text()").toString() );
            loadermanModel.setDetailUrl(html.xpath("//a[@class='postTitle2']").links().toString());
            loadermanModel.setContent(html.xpath("//div[@class='c_b_p_desc']/text()").toString() );
            loadermanModel.setDate(html.xpath("//p[@class='postfoot']/text()").toString() );
            list.add(loadermanModel);
        }

        page.putField("data", list);


        if (page.getResultItems().get("data") == null) {
            //skip this page
            page.setSkip(true);
        }

    }

    @Override
    public Site getSite() {
        return site;
    }
}

自定义Pipeline,，对爬取后的数据提取和处理

import com.alibaba.fastjson.JSON;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;


public class LoadermanlPipeline extends FilePersistentBase implements Pipeline {
    public LoadermanlPipeline(String path) {
        this.setPath(path);
    }

    public void process(ResultItems resultItems, Task task) {
        String path = "LoadermanlPipelineGetData";

        try {
            PrintWriter printWriter = new PrintWriter(new FileWriter(this.getFile(path+ ".json")));
            printWriter.write(JSON.toJSONString(resultItems.get("data")));
            printWriter.close();
        } catch (IOException var5) {

        }
    }
}

开启爬虫：

    Spider.create(new LoadermanPageProcessor())
                .addUrl("https://www.cnblogs.com/loaderman/")
                //自定义Pipeline，保存json文件到本地
                .addPipeline(new LoadermanlPipeline("D:\\loaderman\\"))
                //开启5个线程抓取
                .thread(5)
                //启动爬虫
                .run();

效果如下：

【java爬虫】利用webmagic框架实战demo - 文章图片

搞定！

内容总结

以上是互联网集市为您收集整理的【java爬虫】利用webmagic框架实战demo全部内容，希望文章能够帮你解决【java爬虫】利用webmagic框架实战demo所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/665671.html

来源：【匿名】

【上一篇】Python零基础入门到爬虫再到数据分析，这些你都是要学会的【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【【java爬虫】利用webmagic框架实战demo】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

不知不觉养成了一个习惯：完成一个工作或学习新知识后，要及时整理，否则过一段时间就忘记了。下面是用scrapy 爬虫框架读取行政区划的记录1. SelectorGadget 是个好东西，下载和安装可以网上查安装后，会在crome浏览器右上角有个图标。点击右上角这个图标后，进入css选取模式，（1）点击网页内容，被选取内容显示黄色，同时css选择器会显示在控制面板上。（2）再点击黄色内容，会变红色，表示排除这一项标签。如图：表...

爬虫Scrapy框架-初学

安装： python -m pip install Scrapy创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）进入项目：cd xxx #进入某个文件夹下创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可! /* 其他生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)运...

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

一、Scrapy初识Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有很强通用性的项目模板。- Scrapy内容- 基于框架发起请求- 数据解析- 持久化存储- 核心组件的工作原理- 全站数据爬取- 深度爬取- 中间件- 分布式- 增量式原文：https://www.cnblogs.com/dai-zhe/p/14800745.html

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫框架Pyspider安装及问题【代码】

目录Windows下安装Anaconda,问题及解决1.wsgidav版本问题2.wsgidav版本问题3.webui显示不全，或者说相关的css和js加载不出来运行后的webUI和网页上看到的不一样，查看http://127.0.0.1:5000的源码, 发现是cdnjs.cloudflare.com无法响应4.运行pyspider all命令后一直停留在 result_worker starting...参考：Windows下安装Anaconda,开一个Python3.6的虚拟环境(直接创环境无法设置Python版本，新建环境后使用命令conda install python...

爬虫框架_scrapy1【代码】【图】

介绍： Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因...

scrapy爬虫框架(二)【代码】

scrapy爬虫框架(二)将数据保存到json文件中settings.py打开pipeline,其中数字代表优先级（值越小优先级越高）# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = {'qsbkSpider.pipelines.QsbkspiderPipeline': 300, }qsbk.py# -*- coding: utf-8 -*- import scrapyclass QsbkSpider(scrapy.Spider):name = 'qsbk'allowed_domains = ['www.yicommunity.com']start_ur...

Scrapy爬虫框架的安装和使用【代码】

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。官方网站：https://scrapy.org官方文档：https://docs.scrapy.orgPyPI：https://pypi.python.org/pypi/ScrapyGitHub：https://github.com/scrapy/scrapy中文文档：http://scrapy-chs.readthedocs.io一、安装Scrapy如果你的...

Mooc爬虫05-scrapy框架【代码】【图】

1 scrapy框架的介绍　　安装pip install scrapy　　查看是否安装完成scrapy ‐h　　scrapy框架是实现爬虫功能的一个软件结构和功能组件集合　　scrapy爬虫框架的结构原文：http://www.cnblogs.com/weihuchao/p/6716623.html

社会化海量数据采集爬虫框架搭建【代码】【图】

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整...

爬虫框架 -->scrapy【代码】

scrapy框架　- 框架 : 具有很多功能,且具有很强通用性的项目模板　　- 环境安装 :#环境准备linux 系统　pip3 install scrapywindows系统1 pip3 install wheel2 下载 Twisted-19.2.0-cp36-cp36m-win-amd64.whl3 进入下载目录，执行 pip3 install Twisted?19.2.0?cp36?cp36m?win_amd64.whl4 pip3 install pywin5 pip3 install wheel 什么是scrapy?Scrapy 是一个为了爬取网站数据,提取结构性数据编写的应用框架,.非常强大,所谓的框架就...

爬虫框架Scrapy之详解【图】

Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted[‘tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scrapy架构图(绿...

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

scrapy安装配置不在本文提及，1.在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：scrapy.cfg ：项目的配置文件mySpider/ ：项目的Python模块，将会从这里引用代码mySpider/items.py ：项目的目标文件mySpider/pipelines.py ：项目的...

Python爬虫进阶二之PySpider框架安装配置【图】

关于首先，在此附上项目的地址，以及官方文档PySpider官方文档安装1. pip首先确保你已经安装了pip，若没有安装，请参照pip安装2. phantomjsPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。安装以上附有官方安装方式，如果你是 Ubuntu 或 ...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 【java爬虫】利用webmagic框架实战demo

【java爬虫】利用webmagic框架实战demo

内容导读

内容图文

内容总结

内容备注

内容手机端

【【java爬虫】利用webmagic框架实战demo】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

爬虫Scrapy框架-初学

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

Python爬虫框架Scrapy安装使用步骤

Python爬虫框架Pyspider安装及问题【代码】

爬虫框架_scrapy1【代码】【图】

scrapy爬虫框架(二)【代码】

Scrapy爬虫框架的安装和使用【代码】

Mooc爬虫05-scrapy框架【代码】【图】

社会化海量数据采集爬虫框架搭建【代码】【图】

爬虫框架 -->scrapy【代码】

爬虫框架Scrapy之详解【图】

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

Python爬虫进阶二之PySpider框架安装配置【图】

JAVA - 相关标签

WEB - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程