首页 / 爬虫 / python单线程爬虫code
python单线程爬虫code
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python单线程爬虫code,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1691字,纯文字阅读大概需要3分钟。
内容图文
广度优先算法:
# -*- coding: utf-8 -*- import urllib import urllib.request from bs4 import BeautifulSoup import threading mylock = threading.RLock() class Crawler: unVisitUrl = set() visitedUrl = [] def getHtml(self , url): html = ‘‘ req = urllib.request.Request(url , headers = { ‘Connection‘: ‘Keep-Alive‘, ‘Accept‘: ‘text/html, application/xhtml+xml, */*‘, ‘Accept-Language‘: ‘en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3‘, ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko‘ }) try: respose = urllib.request.urlopen(req , timeout = 10) html = respose.read().decode(‘UTF-8‘).replace(‘ ‘,‘‘) except Exception as e: passreturn html; def getUrlFromHtml(self , html , sitePath): if(html): soup = BeautifulSoup(html , ‘html.parser‘) aList = soup.find_all(‘a‘) for a in aList: try: if sitePath in a[‘href‘] and a[‘href‘].startswith(‘http://‘): self.addUnVisitUrl(a[‘href‘]) self.addVisitedUrl(a[‘href‘]) except KeyError: pass# 解析网页内容def analysis(self , url , sitePath): self.initUnVisitUrl(url) while(len(self.unVisitUrl) > 0): visitingUrl = self.getUnVisitUrl() print(visitingUrl) if(visitingUrl): html = self.getHtml(visitingUrl) if(html): # 获取网页中所有内部链接,存储 self.getUrlFromHtml(html , sitePath) # 初始化根链接def initUnVisitUrl(self , url): self.unVisitUrl.add(url) def addUnVisitUrl(self , url): if url notin self.unVisitUrl and url notin self.visitedUrl: self.unVisitUrl.add(url) def getUnVisitUrl(self): url = None unVisitUrlTmp = list(self.unVisitUrl) if unVisitUrlTmp[0]: url = unVisitUrlTmp[0] self.unVisitUrl.remove(url) return url def addVisitedUrl(self , url): self.visitedUrl.append(url)
原文:http://www.cnblogs.com/orlion/p/4895449.html
内容总结
以上是互联网集市为您收集整理的python单线程爬虫code全部内容,希望文章能够帮你解决python单线程爬虫code所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。