首页 / 爬虫 / 零基础写Java知乎爬虫之进阶篇

零基础写Java知乎爬虫之进阶篇

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了零基础写Java知乎爬虫之进阶篇，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含10716字，纯文字阅读大概需要16分钟。

内容图文

说到爬虫，使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能，但是对于一些比较高级的功能，比如重定向的处理，HTML标记的去除，仅仅使用URLConnection还是不够的。

在这里我们可以使用HttpClient这个第三方jar包。

接下来我们使用HttpClient简单的写一个爬去百度的Demo：

             1
            import
             java.io.FileOutputStream;

             2
            import
             java.io.InputStream;

             3
            import
             java.io.OutputStream;

             4
            import
             org.apache.commons.httpclient.HttpClient;

             5
            import
             org.apache.commons.httpclient.HttpStatus;

             6
            import
             org.apache.commons.httpclient.methods.GetMethod;

             7
            /**
             8
             * 

             9
             * 
            @author
             CallMeWhy

            10
             * 

            11
            */
            12
            public
            class
             Spider {

            13
            private
            static HttpClient httpClient = new HttpClient();
14/**15  * @param path
16  *            目标网页的链接
17  * @return 返回布尔值，表示是否正常下载目标页面
18  * @throws Exception
19  *             读取网页流或写入本地文件流的IO异常
20*/21publicstaticboolean downloadPage(String path) throws Exception {
22// 定义输入输出流23   InputStream input = null;
24   OutputStream output = null;
25// 得到 post 方法26   GetMethod getMethod = new GetMethod(path);
27// 执行，返回状态码28int statusCode = httpClient.executeMethod(getMethod);
29// 针对状态码进行处理
30// 简单起见，只处理返回值为 200 的状态码31if (statusCode == HttpStatus.SC_OK) {
32    input = getMethod.getResponseBodyAsStream();
33// 通过对URL的得到文件名34    String filename = path.substring(path.lastIndexOf(‘/‘) + 1)
35      + ".html";
36// 获得文件输出流37    output = new FileOutputStream(filename);
38// 输出到文件39int tempByte = -1;
40while ((tempByte = input.read()) > 0) {
41    output.write(tempByte);
42   }
43// 关闭输入流44if (input != null) {
45    input.close();
46   }
47// 关闭输出流48if (output != null) {
49    output.close();
50   }
51returntrue;
52  }
53returnfalse;
54 }
55publicstaticvoid main(String[] args) {
56try {
57// 抓取百度首页，输出58    Spider.downloadPage("<a target=_blank href="http://www.baidu.com">http://www.baidu.com</a>");59   } catch (Exception e) {
60   e.printStackTrace();
61  }
62 }
63 }

但是这样基本的爬虫是不能满足各色各样的爬虫需求的。

先来介绍宽度优先爬虫。

宽度优先相信大家都不陌生，简单说来可以这样理解宽度优先爬虫。

我们把互联网看作一张超级大的有向图，每一个网页上的链接都是一个有向边，每一个文件或没有链接的纯页面则是图中的终点：

技术分享

宽度优先爬虫就是这样一个爬虫，爬走在这个有向图上，从根节点开始一层一层往外爬取新的节点的数据。

宽度遍历算法如下所示：

(1) 顶点 V 入队列。
(2) 当队列非空时继续执行，否则算法为空。
(3) 出队列，获得队头节点 V，访问顶点 V 并标记 V 已经被访问。
(4) 查找顶点 V 的第一个邻接顶点 col。
(5) 若 V 的邻接顶点 col 未被访问过，则 col 进队列。
(6) 继续查找 V 的其他邻接顶点 col，转到步骤(5)，若 V 的所有邻接顶点都已经被访问过，则转到步骤(2)。

按照宽度遍历算法，上图的遍历顺序为：A->B->C->D->E->F->H->G->I，这样一层一层的遍历下去。

而宽度优先爬虫其实爬取的是一系列的种子节点，和图的遍历基本相同。

我们可以把需要爬取页面的URL都放在一个TODO表中，将已经访问的页面放在一个Visited表中：

技术分享

则宽度优先爬虫的基本流程如下：

(1) 把解析出的链接和 Visited 表中的链接进行比较，若 Visited 表中不存在此链接，表示其未被访问过。
(2) 把链接放入 TODO 表中。
(3) 处理完毕后，从 TODO 表中取得一条链接，直接放入 Visited 表中。
(4) 针对这个链接所表示的网页，继续上述过程。如此循环往复。

下面我们就来一步一步制作一个宽度优先的爬虫。

首先，对于先设计一个数据结构用来存储TODO表，考虑到需要先进先出所以采用队列，自定义一个Quere类：

             1
            import
             java.util.LinkedList;

             2
            /**
             3
             * 自定义队列类 保存TODO表

             4
            */
             5
            public
            class
             Queue {

             6
            /**
             7
              * 定义一个队列，使用LinkedList实现

             8
            */
             9
            private LinkedList<Object> queue = new LinkedList<Object>(); // 入队列10/**11  * 将t加入到队列中
12*/13publicvoid enQueue(Object t) {
14  queue.addLast(t);
15 }
16/**17  * 移除队列中的第一项并将其返回
18*/19public Object deQueue() {
20return queue.removeFirst();
21 }
22/**23  * 返回队列是否为空
24*/25publicboolean isQueueEmpty() {
26return queue.isEmpty();
27 }
28/**29  * 判断并返回队列是否包含t
30*/31publicboolean contians(Object t) {
32return queue.contains(t);
33 }
34/**35  * 判断并返回队列是否为空
36*/37publicboolean empty() {
38return queue.isEmpty();
39 }
40 }

还需要一个数据结构来记录已经访问过的 URL，即Visited表。

考虑到这个表的作用，每当要访问一个 URL 的时候，首先在这个数据结构中进行查找，如果当前的 URL 已经存在，则丢弃这个URL任务。

这个数据结构需要不重复并且能快速查找，所以选择HashSet来存储。

综上，我们另建一个SpiderQueue类来保存Visited表和TODO表：

             1
            import
             java.util.HashSet;

             2
            import
             java.util.Set;

             3
            /**
             4
             * 自定义类 保存Visited表和unVisited表

             5
            */
             6
            public
            class
             SpiderQueue {

             7
            /**
             8
              * 已访问的url集合，即Visited表

             9
            */
            10
            private
            static Set<Object> visitedUrl = new HashSet<>();
11/**12  * 添加到访问过的 URL 队列中
13*/14publicstaticvoid addVisitedUrl(String url) {
15  visitedUrl.add(url);
16 }
17/**18  * 移除访问过的 URL
19*/20publicstaticvoid removeVisitedUrl(String url) {
21  visitedUrl.remove(url);
22 }
23/**24  * 获得已经访问的 URL 数目
25*/26publicstaticint getVisitedUrlNum() {
27return visitedUrl.size();
28 }
29/**30  * 待访问的url集合，即unVisited表
31*/32privatestatic Queue unVisitedUrl = new Queue();
33/**34  * 获得UnVisited队列
35*/36publicstatic Queue getUnVisitedUrl() {
37return unVisitedUrl;
38 }
39/**40  * 未访问的unVisitedUrl出队列
41*/42publicstatic Object unVisitedUrlDeQueue() {
43return unVisitedUrl.deQueue();
44 }
45/**46  * 保证添加url到unVisitedUrl的时候每个 URL只被访问一次
47*/48publicstaticvoid addUnvisitedUrl(String url) {
49if (url != null && !url.trim().equals("") && !visitedUrl.contains(url)
50     && !unVisitedUrl.contians(url))
51   unVisitedUrl.enQueue(url);
52 }
53/**54  * 判断未访问的 URL队列中是否为空
55*/56publicstaticboolean unVisitedUrlsEmpty() {
57return unVisitedUrl.empty();
58 }
59 }

上面是一些自定义类的封装，接下来就是一个定义一个用来下载网页的工具类，我们将其定义为DownTool类：

             1
            package
             controller;

             2
            import java.io.*;
 3import org.apache.commons.httpclient.*;
 4import org.apache.commons.httpclient.methods.*;
 5import org.apache.commons.httpclient.params.*;
 6publicclass DownTool {
 7/** 8  * 根据 URL 和网页类型生成需要保存的网页的文件名，去除 URL 中的非文件名字符
 9*/10private String getFileNameByUrl(String url, String contentType) {
11// 移除 "http://" 这七个字符12   url = url.substring(7);
13// 确认抓取到的页面为 text/html 类型14if (contentType.indexOf("html") != -1) {
15// 把所有的url中的特殊符号转化成下划线16    url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";
17   } else {
18    url = url.replaceAll("[\\?/:*|<>\"]", "_") + "."
19      + contentType.substring(contentType.lastIndexOf("/") + 1);
20  }
21return url;
22 }
23/**24  * 保存网页字节数组到本地文件，filePath 为要保存的文件的相对地址
25*/26privatevoid saveToLocal(byte[] data, String filePath) {
27try {
28    DataOutputStream out = new DataOutputStream(new FileOutputStream(
29new File(filePath)));
30for (int i = 0; i < data.length; i++)
31    out.write(data[i]);
32   out.flush();
33   out.close();
34   } catch (IOException e) {
35   e.printStackTrace();
36  }
37 }
38// 下载 URL 指向的网页39public String downloadFile(String url) {
40   String filePath = null;
41// 1.生成 HttpClinet对象并设置参数42   HttpClient httpClient = new HttpClient();
43// 设置 HTTP连接超时 5s44  httpClient.getHttpConnectionManager().getParams()
45     .setConnectionTimeout(5000);
46// 2.生成 GetMethod对象并设置参数47   GetMethod getMethod = new GetMethod(url);
48// 设置 get请求超时 5s49   getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);
50// 设置请求重试处理51  getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
52new DefaultHttpMethodRetryHandler());
53// 3.执行GET请求54try {
55int statusCode = httpClient.executeMethod(getMethod);
56// 判断访问的状态码57if (statusCode != HttpStatus.SC_OK) {
58     System.err.println("Method failed: "
59       + getMethod.getStatusLine());
60     filePath = null;
61   }
62// 4.处理 HTTP 响应内容63byte[] responseBody = getMethod.getResponseBody();// 读取为字节数组
64// 根据网页 url 生成保存时的文件名65    filePath = "temp\\"
66      + getFileNameByUrl(url,
67        getMethod.getResponseHeader("Content-Type")
68         .getValue());
69   saveToLocal(responseBody, filePath);
70   } catch (HttpException e) {
71// 发生致命的异常，可能是协议不对或者返回的内容有问题72    System.out.println("请检查你的http地址是否正确");
73   e.printStackTrace();
74   } catch (IOException e) {
75// 发生网络异常76   e.printStackTrace();
77   } finally {
78// 释放连接79   getMethod.releaseConnection();
80  }
81return filePath;
82 }
83 }

在这里我们需要一个HtmlParserTool类来处理Html标记：

             1
            package
             controller;

             2
            import
             java.util.HashSet;

             3
            import
             java.util.Set;

             4
            import
             org.htmlparser.Node;

             5
            import
             org.htmlparser.NodeFilter;

             6
            import
             org.htmlparser.Parser;

             7
            import
             org.htmlparser.filters.NodeClassFilter;

             8
            import
             org.htmlparser.filters.OrFilter;

             9
            import
             org.htmlparser.tags.LinkTag;

            10
            import
             org.htmlparser.util.NodeList;

            11
            import
             org.htmlparser.util.ParserException;

            12
            import
             model.LinkFilter;

            13
            public
            class
             HtmlParserTool {

            14
            //
             获取一个网站上的链接，filter 用来过滤链接
            15
            public
            static Set<String> extracLinks(String url, LinkFilter filter) {
16   Set<String> links = new HashSet<String>();
17try {
18    Parser parser = new Parser(url);
19    parser.setEncoding("gb2312");
20// 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性21    NodeFilter frameFilter = new NodeFilter() {
22privatestaticfinallong serialVersionUID = 1L;
23    @Override
24publicboolean accept(Node node) {
25if (node.getText().startsWith("frame src=")) {
26returntrue;
27      } else {
28returnfalse;
29     }
30    }
31   };
32// OrFilter 来设置过滤 <a> 标签和 <frame> 标签33    OrFilter linkFilter = new OrFilter(new NodeClassFilter(
34      LinkTag.class), frameFilter);
35// 得到所有经过过滤的标签36    NodeList list = parser.extractAllNodesThatMatch(linkFilter);
37for (int i = 0; i < list.size(); i++) {
38     Node tag = list.elementAt(i);
39if (tag instanceof LinkTag)// <a> 标签40    {
41      LinkTag link = (LinkTag) tag;
42      String linkUrl = link.getLink();// URL43if (filter.accept(linkUrl))
44      links.add(linkUrl);
45     } else// <frame> 标签46    {
47// 提取 frame 里 src 属性的链接， 如 <frame src="test.html"/>48      String frame = tag.getText();
49int start = frame.indexOf("src=");
50      frame = frame.substring(start);
51int end = frame.indexOf(" ");
52if (end == -1)
53       end = frame.indexOf(">");
54      String frameUrl = frame.substring(5, end - 1);
55if (filter.accept(frameUrl))
56      links.add(frameUrl);
57    }
58   }
59   } catch (ParserException e) {
60   e.printStackTrace();
61  }
62return links;
63 }
64 }

最后我们来写个爬虫类调用前面的封装类和函数：

             1
            package
             controller;

             2
            import
             java.util.Set;

             3
            import
             model.LinkFilter;

             4
            import
             model.SpiderQueue;

             5
            public
            class
             BfsSpider {

             6
            /**
             7
              * 使用种子初始化URL队列

             8
            */
             9
            private
            void
             initCrawlerWithSeeds(String[] seeds) {

            10
            for (int i = 0; i < seeds.length; i++)
11   SpiderQueue.addUnvisitedUrl(seeds[i]);
12 }
13// 定义过滤器，提取以 <a target=_blank href="http://www.xxxx.com">http://www.xxxx.com</a>开头的链接14publicvoid crawling(String[] seeds) {
15   LinkFilter filter = new LinkFilter() {
16publicboolean accept(String url) {
17if (url.startsWith("<a target=_blank href="http://www.baidu.com">http://www.baidu.com</a>"))18returntrue;
19else20returnfalse;
21   }
22  };
23// 初始化 URL 队列24  initCrawlerWithSeeds(seeds);
25// 循环条件：待抓取的链接不空且抓取的网页不多于 100026while (!SpiderQueue.unVisitedUrlsEmpty()
27     && SpiderQueue.getVisitedUrlNum() <= 1000) {
28// 队头 URL 出队列29    String visitUrl = (String) SpiderQueue.unVisitedUrlDeQueue();
30if (visitUrl == null)
31continue;
32    DownTool downLoader = new DownTool();
33// 下载网页34   downLoader.downloadFile(visitUrl);
35// 该 URL 放入已访问的 URL 中36   SpiderQueue.addVisitedUrl(visitUrl);
37// 提取出下载网页中的 URL38    Set<String> links = HtmlParserTool.extracLinks(visitUrl, filter);
39// 新的未访问的 URL 入队40for (String link : links) {
41    SpiderQueue.addUnvisitedUrl(link);
42   }
43  }
44 }
45// main 方法入口46publicstaticvoid main(String[] args) {
47   BfsSpider crawler = new BfsSpider();
48   crawler.crawling(new String[] { "<a target=_blank href="http://www.baidu.com">http://www.baidu.com</a>" });49 }
50 }

运行可以看到，爬虫已经把百度网页下所有的页面都抓取出来了：

技术分享

以上就是java使用HttpClient工具包和宽度爬虫进行抓取内容的操作的全部内容，稍微复杂点，小伙伴们要仔细琢磨下哦，希望对大家能有所帮助

原文：http://www.cnblogs.com/shirui/p/5137238.html

内容总结

以上是互联网集市为您收集整理的零基础写Java知乎爬虫之进阶篇全部内容，希望文章能够帮你解决零基础写Java知乎爬虫之进阶篇所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1047540.html

来源：【匿名】

【上一篇】Python实现爬虫从网络上下载文档【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【零基础写Java知乎爬虫之进阶篇】教程文章相关的互联网学习教程文章

httpclient下载网页源码---java基础爬虫【代码】【图】

有关httpclient：HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性，它不仅使客户端发送Http请求变得容易，而且也方便开发人员测试接口（基于Http协议的），提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会更加深入。org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别Commons的HttpClient项...

爬虫基础知识（叁）

一、cookie和session：　　　　1、cookie和session的定义：　　　　　　cookie是网站用来辨别用户身份，进行会话跟踪，存储在本地终端上的数据。　　　　　　session起始含义是指有始有终的一系列动作和消息。在web中，session主要用来在服务器存储特定用户对象会话所需要的信息。　　　　2、cookie和session产生的原因：　　　　　　http协议是一个无状态协议，在特定操作的时候，需要保存信息，进而产生了cookie和session。　　　...

所谓的python web爬虫基础【代码】

import re正则表达式：常用的符号：点号问号星号和小括号.：匹配任意字符，换行符\n除外——点号可以理解为占位符，一个点号匹配一个字符。*:匹配前一个字符0次或无限次?:匹配前一个字符0次或者1次.*：贪心算法（尽可能多的匹配到数据）.*?：非贪心算法（尽可能多的找到满足条件的组合）()：括号内的数据将会作为结果返回。常用的方法：findall，Search，Subfindall：匹配所有符合规律的内容Search：匹配并提出第一个符合规律的...

网络爬虫基础练习【代码】

0.可以新建一个用于练习的html文件，在浏览器中打开。329.html<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>Simple DOM Demo</title> </head><body><h1>This is the document body</h1><P ID = "p1Node">This is paragraph 1.</P><P ID = "p2Node">段落2</P><a href="http://www.gzcc.cn/">广州商学院</a><li><a href="http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html"><div class="news-l...

爬虫基础【代码】

0x1、基础框架原理1.1、爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中1.1、基础原理1、发起HTTP请求2、获取响应内容3、解析内容解析html数据解析json数据解析二进制数据4、保存数据（数据库、文件）1.2、发起HTTP请求-Request1、HTTP请求方法：常用的请求方法：GET，POST其他请求方法：HEAD，PUT，DELETE，OPTHONS2、请求URLWeb上每种可用的资源，如 HTML文档、...

爬虫基础知识（陆）

一、多线程爬虫（一）程序、进程与线程：　　　　程序：相当于一个应用。　　　　进程：程序运行资源（内存资源）的最小分配单位，一个程序可以有多个进程。　　　　线程：cpu最小的调度单位，必须依赖进程而存在。线程没有独立资源，所有线程共享该进程的全部资源。　　　　线程的划分尺度比进程小。　　（二）为什么多进程和多线程可以提高程序的运行速度？　　　　1、提高程序的运行速度的第一种方法：提高CPU的利用率。　　　　...

爬虫基础之HTTP协议和Chrome抓包工具【代码】

categories:爬虫 tags:URL详解什么是HTTP协议和HTTPS协议HTTP协议：全称是HyperText Transfer Protocol,中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口是80HTTPS协议：是HTTP协议的加密版本，在HTTP的基础上加入了SSL层。服务器端口为443在浏览器中发送一个HTTP请求的过程:注意：此过程关注点在Python爬虫并非细节请求过程当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HT...

java网络爬虫基础学习（一）

刚开始接触java爬虫，在这里是搜索网上做一些理论知识的总结主要参考文章：gitchat 的java 网络爬虫基础入门，好像要付费，也不贵，感觉内容对新手很友好。　　一、爬虫介绍　　网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。　　传统爬虫：　　获得URL -》放入队列 -》抓取网页，分析信息 -》新的URL -》放入队列 -》抓取网页，分析信息... -》满足一定条件，停止。　　聚焦爬虫：...

爬虫基础模块【代码】

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。...

Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。2.浏览网页的过程在用...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理【代码】

1.设置用户代理默认情况下，urliib2使用python-urllib、2.7 作为用户代理下载网页内容，其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理，确保下载更加可靠，我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理。import urllib2def download(url,user_agent=‘wswp‘, num_retries=2): print ‘downloading:‘,url headers={‘User-agent‘:user_agent} request=u...

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)【代码】

https://www.cnblogs.com/zhaof/p/6910871.html Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块我们可以这样认为 urlopen 只有 url 没有参数，那么就是 get 请求，如果添加data参数就是 post 请求。 get 请求import urllib.parse import urllib.request‘‘‘ urllib.request.urlopen参数的介绍： urllib.request.u...

爬虫基础知识与简单爬虫实现【代码】

css规则：选择器，以及一条或者多条生命。selector{declaration1;,,,;desclarationN}每条声明是由一个属性和一个值组成property:value例子：h1{color:red;fontsize:14px} 元素选择器：直接选择文档元素比如head,p类选择器：元素的class属性，比如<h1 class =”important”>类名就是important.important选择所有有这个类属性的元素可以结合元素选择器，比如p.important id选择器元素的id属性，比如<h1 id=”aa”>id就是aa#aa用于选...

网络爬虫基础练习【代码】【图】

import requests url=‘http://localhost:63342/zjc/news.html?_ijt=p2l5n0shp613m01ad0jlpobino‘ res=requests.get(url) res.encoding=‘utf-8‘from bs4 import BeautifulSoup soup=BeautifulSoup(res.text,‘html.parser‘)取出h1标签的文本print(soup.h1.text) 取出a标签的链接s=soup.a.attrs[‘href‘] print(s) 取出所有li标签的所有内容s=soup.select(‘li‘) print(s) 取出一条新闻的标题、链接、发布时间、来源s0=soup.s...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 零基础写Java知乎爬虫之进阶篇

零基础写Java知乎爬虫之进阶篇

内容导读

内容图文

内容总结

内容备注

内容手机端

【零基础写Java知乎爬虫之进阶篇】教程文章相关的互联网学习教程文章

爬虫 - 最新教程

爬虫 - 最热教程