首页 / 爬虫 / Java爬虫入门案例,第一个爬虫程序
Java爬虫入门案例,第一个爬虫程序
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Java爬虫入门案例,第一个爬虫程序,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2271字,纯文字阅读大概需要4分钟。
内容图文
![Java爬虫入门案例,第一个爬虫程序](/upload/InfoBanner/zyjiaocheng/711/7a4a58a082574d69ba6a04123ba8c233.jpg)
首先创建maven工程添加依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>crawler</groupId>
<artifactId>crawler</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.2</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12 -->
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.25</version>
<!--<scope>test</scope>-->
</dependency>
</dependencies>
</project>
创建log4j.properties
### #配置根Logger ### log4j.rootLogger=debug,stdout ### 输出到控制台 ### log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.Target=System.out log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyy-MM-dd HH\:mm\:ss} %5p %c{1}\:%L - %m%n
创建FristCrawler类
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import java.io.IOException;
public class FristCrawler {
public static void main(String[] args) {
//1.打开浏览器
CloseableHttpClient httpClient = HttpClients.createDefault();
//2.输入网址
HttpGet httpGet=new HttpGet("http://news.baidu.com/");
//3.按回车发起请求,返回响应
CloseableHttpResponse response = null;
try {
response = httpClient.execute(httpGet);
//4.解析响应,获取数据
//判断状态码是否是200
if ( response.getStatusLine().getStatusCode()==200){
HttpEntity httpEntity = response.getEntity();
String html = EntityUtils.toString(httpEntity, "utf8");
System.out.println(html);
}
} catch (IOException e) {
e.printStackTrace();
}finally {
try {
//关闭response,httpclient
response.close();
httpClient.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
爬到的网页信息:
入门的第一个程序,比较菜~~
内容总结
以上是互联网集市为您收集整理的Java爬虫入门案例,第一个爬虫程序全部内容,希望文章能够帮你解决Java爬虫入门案例,第一个爬虫程序所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。