Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2053字,纯文字阅读大概需要3分钟。
内容图文
![Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据](/upload/InfoBanner/zyjiaocheng/1068/068021ab4e2e4ac39bc876d344deed66.jpg)
在涉及地址服务时,经常需要用到地址信息的获取,而行政区划可能不定期的发生变化,所以我们需要获取最新的行政区划信息。因行政区划数据量较大,Java中可以使用Jsoup进行数据的获取、处理。
大家经常用到的行政区划数据,可从中华人民共和国民政部网站上获取,响应请求链接如下所示:
http://www.mca.gov.cn/article/sj/xzqh/2019/
界面如下图所示:
截至当前对应的行政区划数据请求链接为:http://www.mca.gov.cn/article/sj/xzqh/2019/201901-06/201904301706.html ,对应的页面显示如下所示:
通过观察中华人民共和国县以上行政区划代码的列表中可以看出行政区划代码基本规则:
- 行政区划代码若为非 “00” 结尾,可将区划级别视为 三级;
- 行政区划代码若为 “00” 结尾,可将区划级别视为 二级;
- 行政区划代码若为 “0000” 结尾,可将区划级别视为 一级;
页面部分源码如下所示:
可知:行政区划代码数据存储在 table 中,表格的第二列存放“行政区划代码”,表格的第三列存放“单位名称”;
爬取思路如下:
1、获取响应结果的 dom 树;
2、获取所有的行标签;
3、便利所有的列标签,获取拥有三个以上子列的行信息,并取第 2 列和第 3 列;
4、依据行政区划代码基本规则,进行数据的标示;
5、输出获得的行政区划数据,此处输出为 SQL 插入语句。
源代码如下所示:
@Test public void getRegionSql () throws Exception { String url = "http://www.mca.gov.cn/article/sj/xzqh/2019/201901-06/201904301706.html"; int count = 0; Document doc = Jsoup.connect(url) .header("User-Agent", "Mozilla/5.0 (Windows NT 10.0 Win64 x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36") .header("Accept", "text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,image/apng,*/*q=0.8,application/signed-exchangev=b3") .maxBodySize(0) .timeout(100000) .get(); Elements trs = doc.select("tr"); for (Element tr : trs ) { Elements tds = tr.select("td"); if (tds.size() > 3) { String regionCode = tds.get(1).text(); String regionArea = tds.get(2).text(); String parentCode = ""; if (validCode(regionCode)) { int leveType = 2; parentCode = regionCode.substring(0,2) + "0000"; if (!regionCode.endsWith("00")) { leveType = 3; parentCode = regionCode.substring(0,4) + "00"; } if (regionCode.endsWith("0000")) { leveType = 1; parentCode = "000000"; } count++; String content = String.format("insert into region_code (code, name, level, parent_code, dtime, note, ctime)" + " values (%s, ‘%s‘, %s, %s, ‘201903‘, ‘系统生成‘, NOW());" + System.getProperty("line.separator"), regionCode, regionArea, leveType, parentCode); System.out.println(content); } } } System.out.println("总数量为:" + count); }
原文:https://www.cnblogs.com/fengpingfan/p/10875230.html
内容总结
以上是互联网集市为您收集整理的Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据全部内容,希望文章能够帮你解决Java学习-056-Jsoup爬虫获取中国所有的三级行政区划数据所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。