Java爬虫入门案例，第一个爬虫程序

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Java爬虫入门案例，第一个爬虫程序，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2271字，纯文字阅读大概需要4分钟。

内容图文

首先创建maven工程添加依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>crawler</groupId>
    <artifactId>crawler</artifactId>
    <version>1.0-SNAPSHOT</version>
<dependencies>
    <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.2</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12 -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.25</version>
        <!--<scope>test</scope>-->
    </dependency>

</dependencies>

</project>

创建log4j.properties

### #配置根Logger ###
log4j.rootLogger=debug,stdout

### 输出到控制台 ###
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target=System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{yyy-MM-dd HH\:mm\:ss} %5p %c{1}\:%L - %m%n

创建FristCrawler类

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;


public class FristCrawler {
    public static void main(String[] args)  {
        //1.打开浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //2.输入网址
        HttpGet httpGet=new HttpGet("http://news.baidu.com/");

        //3.按回车发起请求，返回响应
        CloseableHttpResponse response = null;
        try {
            response = httpClient.execute(httpGet);
            //4.解析响应，获取数据
            //判断状态码是否是200
            if ( response.getStatusLine().getStatusCode()==200){
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf8");
                System.out.println(html);

            }
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            try {
                //关闭response,httpclient
                response.close();
                httpClient.close();
            } catch (IOException e) {
                e.printStackTrace();
            }

        }
    }
}

爬到的网页信息：

Java爬虫入门案例，第一个爬虫程序 - 文章图片

入门的第一个程序，比较菜~~

内容总结

以上是互联网集市为您收集整理的Java爬虫入门案例，第一个爬虫程序全部内容，希望文章能够帮你解决Java爬虫入门案例，第一个爬虫程序所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/710814.html

来源：【匿名】

【上一篇】Python分布式爬虫打造搜索引擎【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Java爬虫入门案例，第一个爬虫程序】教程文章相关的互联网学习教程文章

如果学会了python的基本语法，我认为入门爬虫是很容易的。我写的第一个爬虫大概只需要10分钟，自学的 scrapyd , 看官方文档花了20分钟，因为我英文不是很好，很多单词需要搜索一下。(scrapy 并不是入门必须的）再接触到了 requests , lxml ，配合基本库 urllib, urllib2 就几乎无所不能了。后来有人推荐我用 BeatufulSoup 之类的库，但其实原理都差不多。一、入门爬虫的干货 0. 爬虫的基本思路 a. 通过URL或者文件获取网页， b. ...

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器【图】

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器广东职业技术学院欧浩源 2017-10-211、引言目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。不过，在本...

Puppeteer之爬虫入门【代码】【图】

译者按：本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据，特别是用谷歌开发者工具获取元素选择器值得学习。原文: A Guide to Automating & Scraping the Web with JavaScript (Chrome + Puppeteer + Node JS)译者: Fundebug为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有，翻译仅用于学习。我们将会学到什么？在这篇文章，你讲会学到如何使用JavaScript自动化抓取网页里面感兴趣的内容。我们将会使用...

爬虫简单入门-接口寻找调用【代码】

重新开始学习python，初心不变，抓取马刺队比赛数据。网易NBA的比赛数据写死在页面当中，且数据单一，于是改为解析NBA中国的网页。首先找到马刺队数据页面（http://china.nba.com/teams/stats/#!/spurs），按下F12，从众多运行文件中，可以找到马刺队数据是通过调用API接口更新的，接口调用（"http://china.nba.com/static/data/team/stats_spurs.json"），只管复制下来，后期放入python代码中。因为需要访问链接，需要导入链接访问...

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用【图】

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用广东职业技术学院欧浩源 2017-10-201、引言网络爬虫最终的目的就是过滤选取网络信息，因此最重要的就是解析器了，其性能的优劣直接决定这网络爬虫的速度和效率。BeautifulSoup可以通过定位HTML件中的标签来格式化和组织复杂的网络信息，尝试化平淡为神奇，用简单易用的Python对象为我们展现XML的信息结构，它会帮你节省数小时甚至数天的工作时间。2、什么是Beau...

快速入门带你1小时了解Python 爬虫【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云，作者：CSDN技术头条前言随着网络技术的发展，数据越来越变的值钱，诸多公司都在探究如何获取更多更有用的数据。万维网是大量信息的载体，如何有效提取这些有效且公开的数据并利用这些信息变成了一个巨大的挑战。从而爬虫工程师、数据分析师、大数据工程师的岗位也越来越受欢迎。爬虫则是...

Tor网络突破IP封锁，爬虫好搭档【入门手册】【代码】【图】

本文地址：http://www.cnblogs.com/likeli/p/5719230.html前言　　本文不提供任何搭梯子之类的内容，我在这里仅仅讨论网络爬虫遇到的IP封杀，然后使用Tor如何对抗这种封杀。作为一种技术上的研究讨论。场景　　我们编写的网络爬虫全网采集的时候总会有一些网站有意识的保护自己的网站内容，以防止网络爬虫的抓取。常见的方式就是通过身份验证的方式来进行人机识别。也就是在登陆（查询）的入口增加或者加固防御。这些防御有那些呢...

【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider【图】

【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider广东职业技术学院欧浩源1、引言网络爬虫可以完成传统搜索引擎不能做的事情，利用爬虫程序在网络上取得数据，经过数据清洗和分析，使非结构化的数据转换成结构化的数据，其结果可以存储到数据库，也可以进行数据的可视化，还能根据分析数据的基础获得想要的结果。除了利用urllib.request和正则表达式或者利用Scrapy框架实现网络爬虫之外，利用Requests和Beautifu...

简单爬虫入门

#!/usr/bin/python3#!-*-coding:utf-8-*-#导入库#import requestsfrom bs4 import BeautifulSoup#模拟浏览器访问#headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}#GET网页以及解析打印#Response = requests.get('http://www.dajiqq.com/',headers=headers)soup = BeautifulSoup(res.text,'html.parser')print(soup.prettify...

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

相关教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫工具要求：教程中主要使用到了 1、神箭手云爬虫框架 ?这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

通过beautifulsoup对json爬取的文件进行元素审查，获取是否含有p标签# -*- coding:utf-8 -*-from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup#通过beautifulsoup解析文档def bs4analysis(html_doc):soup = BeautifulSoup(html_doc,"lxml")if soup.find_all(‘a‘):print soup.a.stringprint soup.a.nextSiblingelif html_doc.find(‘#‘)>=0:print‘有主题‘p=re.split(...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

从零起步系统入门Python爬虫工程师

第1章从零开始系统入门python爬虫工程师-课程导学（提醒：购买后记得加入课程群）课程社群技术专题讨论会第一期于3月30号晚上8点开始9点结束，bobby老师和你不见不散！这样的技术专题讨论会有很多期，大家购买完尽快加群哦。第2章开发环境搭建视频+文档教程本章节主要采用视频+文档的方式详细讲解如何在windows/linux/mac下安装和配置python、pycharm、mysql、navicat和虚拟环境。（学习的过程中遇到问题卡壳，可以及时在问答...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / Java爬虫入门案例，第一个爬虫程序

Java爬虫入门案例，第一个爬虫程序

内容导读

内容图文

内容总结

内容备注

内容手机端

【Java爬虫入门案例，第一个爬虫程序】教程文章相关的互联网学习教程文章

入门爬虫的干货

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器【图】

Puppeteer之爬虫入门【代码】【图】

爬虫简单入门-接口寻找调用【代码】

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用【图】

快速入门带你1小时了解Python 爬虫【图】

Tor网络突破IP封锁，爬虫好搭档【入门手册】【代码】【图】

【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider【图】

简单爬虫入门

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

一种基于迭代与分类识别方法的入门级Python爬虫【图】

从零起步系统入门Python爬虫工程师

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

JAVA - 相关标签

爬虫 - 相关标签

程序 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程