有关httpclient:HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性,它不仅使客户端发送Http请求变得容易,而且也方便开发人员测试接口(基于Http协议的),提高了开发的效率,也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容,掌握HttpClient后,相信对于Http协议的了解会更加深入。org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别Commons的HttpClient项...
一、cookie和session: 1、cookie和session的定义: cookie是网站用来辨别用户身份,进行会话跟踪,存储在本地终端上的数据。 session起始含义是指有始有终的一系列动作和消息。在web中,session主要用来在服务器存储特定用户对象会话所需要的信息。 2、cookie和session产生的原因: http协议是一个无状态协议,在特定操作的时候,需要保存信息,进而产生了cookie和session。 ...
import re正则表达式:常用的符号:点号 问号 星号 和小括号.:匹配任意字符,换行符\n除外——点号可以理解为占位符,一个点号匹配一个字符。*:匹配前一个字符0次或无限次?:匹配前一个字符0次或者1次.*:贪心算法(尽可能多的匹配到数据).*?:非贪心算法(尽可能多的找到满足条件的组合)():括号内的数据将会作为结果返回。常用的方法:findall,Search,Subfindall:匹配所有符合规律的内容Search:匹配并提出第一个符合规律的...
0.可以新建一个用于练习的html文件,在浏览器中打开。329.html<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>Simple DOM Demo</title>
</head><body><h1>This is the document body</h1><P ID = "p1Node">This is paragraph 1.</P><P ID = "p2Node">段落2</P><a href="http://www.gzcc.cn/">广州商学院</a><li><a href="http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html"><div class="news-l...
0x1、基础框架原理1.1、爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中1.1、基础原理1、发起HTTP请求2、获取响应内容3、解析内容 解析html数据解析json数据解析二进制数据4、保存数据(数据库、文件)1.2、发起HTTP请求-Request1、HTTP请求方法: 常用的请求方法:GET,POST其他请求方法:HEAD,PUT,DELETE,OPTHONS2、请求URLWeb上每种可用的资源,如 HTML文档、...
一、多线程爬虫(一)程序、进程与线程: 程序:相当于一个应用。 进程:程序运行资源(内存资源)的最小分配单位,一个程序可以有多个进程。 线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。 线程的划分尺度比进程小。 (二)为什么多进程和多线程可以提高程序的运行速度? 1、提高程序的运行速度的第一种方法:提高CPU的利用率。 ...
categories:爬虫
tags:URL详解什么是HTTP协议和HTTPS协议HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口是80HTTPS协议:是HTTP协议的加密版本,在HTTP的基础上加入了SSL层。服务器端口为443在浏览器中发送一个HTTP请求的过程:注意:此过程关注点在Python爬虫并非细节请求过程当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HT...
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好。 一、爬虫介绍 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。 传统爬虫: 获得URL -》放入队列 -》抓取网页,分析信息 -》新的URL -》放入队列 -》抓取网页,分析信息... -》满足一定条件,停止。 聚焦爬虫:...
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。...
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。2.浏览网页的过程在用...
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站,本堂课使用正则表达式对文本类的数据进行提取,正则表达式是数据提取的通用方法。适合人群:Python零基础、对爬虫数据采集感兴趣的同学!环境介绍:python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径,heade...
1.设置用户代理默认情况下,urliib2使用python-urllib、2.7 作为用户代理下载网页内容,其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理,确保下载更加可靠,我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理。import urllib2def download(url,user_agent=‘wswp‘, num_retries=2): print ‘downloading:‘,url headers={‘User-agent‘:user_agent} request=u...
https://www.cnblogs.com/zhaof/p/6910871.html Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块我们可以这样认为 urlopen 只有 url 没有参数,那么就是 get 请求,如果添加data参数就是 post 请求。 get 请求import urllib.parse
import urllib.request‘‘‘
urllib.request.urlopen参数的介绍:
urllib.request.u...
css规则:选择器,以及一条或者多条生命。selector{declaration1;,,,;desclarationN}每条声明是由一个属性和一个值组成property:value例子:h1{color:red;fontsize:14px} 元素选择器:直接选择文档元素比如head,p类选择器:元素的class属性,比如<h1 class =”important”>类名就是important.important选择所有有这个类属性的元素可以结合元素选择器,比如p.important
id选择器元素的id属性,比如<h1 id=”aa”>id就是aa#aa用于选...
import requests
url=‘http://localhost:63342/zjc/news.html?_ijt=p2l5n0shp613m01ad0jlpobino‘
res=requests.get(url)
res.encoding=‘utf-8‘from bs4 import BeautifulSoup
soup=BeautifulSoup(res.text,‘html.parser‘)取出h1标签的文本print(soup.h1.text)
取出a标签的链接s=soup.a.attrs[‘href‘]
print(s)
取出所有li标签的所有内容s=soup.select(‘li‘)
print(s)
取出一条新闻的标题、链接、发布时间、来源s0=soup.s...