python单线程爬虫code

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python单线程爬虫code，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1691字，纯文字阅读大概需要3分钟。

内容图文

广度优先算法：

            #
             -*- coding: utf-8 -*- 
            import
             urllib

            import
             urllib.request

            from bs4 import BeautifulSoup
import threading
mylock = threading.RLock()
class Crawler:
    unVisitUrl = set()
    visitedUrl = []
    def getHtml(self , url):

        html = ‘‘
        req = urllib.request.Request(url , headers = {
            ‘Connection‘: ‘Keep-Alive‘,
            ‘Accept‘: ‘text/html, application/xhtml+xml, */*‘,
            ‘Accept-Language‘: ‘en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3‘,
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko‘
        })
        try:
            respose = urllib.request.urlopen(req , timeout = 10)
            html = respose.read().decode(‘UTF-8‘).replace(‘&nbsp‘,‘‘)
        except Exception as e:
            passreturn html;

    def getUrlFromHtml(self , html , sitePath):

        if(html):
            soup = BeautifulSoup(html , ‘html.parser‘)
            aList = soup.find_all(‘a‘)
            for a in aList:
                try:
                    if sitePath in a[‘href‘] and a[‘href‘].startswith(‘http://‘):
                        self.addUnVisitUrl(a[‘href‘])
                        self.addVisitedUrl(a[‘href‘])
                except KeyError:
                    pass# 解析网页内容def analysis(self , url , sitePath):

        self.initUnVisitUrl(url)

        while(len(self.unVisitUrl) > 0):
            visitingUrl = self.getUnVisitUrl()
            print(visitingUrl)
            if(visitingUrl):
                html = self.getHtml(visitingUrl)
                if(html):
                    # 获取网页中所有内部链接，存储                    self.getUrlFromHtml(html , sitePath)

    # 初始化根链接def initUnVisitUrl(self , url):
        self.unVisitUrl.add(url)

    def addUnVisitUrl(self , url):
        if url notin self.unVisitUrl and url notin self.visitedUrl:
            self.unVisitUrl.add(url)

    def getUnVisitUrl(self):

        url = None
        unVisitUrlTmp = list(self.unVisitUrl)
        if unVisitUrlTmp[0]:
            url = unVisitUrlTmp[0]
            self.unVisitUrl.remove(url)

        return url

    def addVisitedUrl(self , url):
        self.visitedUrl.append(url)

原文：http://www.cnblogs.com/orlion/p/4895449.html

内容总结

以上是互联网集市为您收集整理的python单线程爬虫code全部内容，希望文章能够帮你解决python单线程爬虫code所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1097775.html

来源：【匿名】

【上一篇】python 爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python单线程爬虫code】教程文章相关的互联网学习教程文章

广度优先算法：# -*- coding: utf-8 -*- import urllib import urllib.request from bs4 import BeautifulSoup import threading mylock = threading.RLock() class Crawler:unVisitUrl = set()visitedUrl = []def getHtml(self , url):html = ‘‘req = urllib.request.Request(url , headers = {‘Connection‘: ‘Keep-Alive‘,‘Accept‘: ‘text/html, application/xhtml+xml, */*‘,‘Accept-Language‘: ‘en-US,en;q=0.8,z...

单线程 - 相关标签

单线程

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python单线程爬虫code

python单线程爬虫code

内容导读

内容图文

内容总结

内容备注

内容手机端

【python单线程爬虫code】教程文章相关的互联网学习教程文章

python单线程爬虫code【代码】

单线程 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程