python 爬虫第二个程序

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 爬虫第二个程序，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1615字，纯文字阅读大概需要3分钟。

内容图文

#!/usr/bin/python
#encoding=utf-8
import urllib2    
import urllib    
import re    
import thread    
import time    

class Spider(object):
    
    def  __init__(self):
        self.page = 1
        self.pages = []
        self.enable = False
    
    def Start(self):
        self.enable = True
        page = self.page
        thread.start_new_thread(self.LoadPage,()) 
        while self.enable:
            if self.pages:
                nowpage = self.pages[0]
                del self.pages[0]
                self.ShowPage(nowpage,page)
                page += 1
               
    def LoadPage(self):
        while self.enable:
            if len(self.pages)<2:
                try:
                    myPage = self.GetPage(str(self.page))
                    self.pages.append(myPage)
                    self.page += 1
                except:
                    print "无法链接糗事百科"
            else:
                time.sleep(1)
                    
    def ShowPage(self,nowpage,page):
        for item in nowpage:
            print "the %d page"%(page)
            print item[0],item[1]
            myInput = raw_input()
            if myInput == "q" :
                self.enable = False
                break    
            
    def GetPage(self,page):
        url = "http://m.qiushibaike.com/hot/page/" + page 
        user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘
        headers = {"User-Agent":user_agent}
        req = urllib2.Request(url,headers = headers)
        res = urllib2.urlopen(req)
        myPage = res.read()
        unicodePage = myPage.decode("utf-8")
        
        # 找出所有class="content"的div标记    
        #re.S是任意匹配模式，也就是.可以匹配换行符    
        myItems = re.findall
         (‘<div.*?class="content".*?title="(.*?)">(.*?)</div>‘,unicodePage,re.S)  
        items = []
        for i in myItems:
            items.append([i[0],i[1]])
        return items
#----------- 程序的入口处 -----------    
print u"""  
        ---------------------------------------  
            程序：糗百爬虫  
            语言：Python 2.7  
            操作：输入q
            退出阅读糗事百科  
            功能：按下回车依次浏览今日的糗百热点  
        ---------------------------------------  
        """  
             
             
print u‘请按下回车浏览今日的糗百内容：‘    
raw_input(‘ ‘)       
my_spider = Spider()
my_spider.Start()

原文：http://my.oschina.net/sunxichao/blog/372951

内容总结

以上是互联网集市为您收集整理的python 爬虫第二个程序全部内容，希望文章能够帮你解决python 爬虫第二个程序所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1201159.html

来源：【匿名】

【上一篇】哔哩哔哩热榜爬虫程序及数据处理【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python 爬虫第二个程序】教程文章相关的互联网学习教程文章

哔哩哔哩热榜爬虫程序及数据处理完整的代码与结果在最下面一、设计方案 1.爬虫的目标是哔哩哔哩排行榜上视频的信息（https://www.bilibili.com/ranking/all/0/1/7） 2.爬取的内容包括网页上显示的所有内容，有排名标题，播放量，弹幕数，up，得分以及视频的url3.设计方案：根据作业的要求，制作爬虫程序爬取信息并进行数据处理，整个程序分成四个部分，包括数据爬取：（get_rank），数据清洗与处理：（rubbish），文本分析生成...

python 爬虫第二个程序【代码】

#!/usr/bin/python #encoding=utf-8 import urllib2 import urllib import re import thread import time class Spider(object): def __init__(self): self.page = 1 self.pages = [] self.enable = False def Start(self): self.enable = True page = self.page thread.start_new_thread(self.LoadPage,()) while self.enable: ...

小爬虫程序进程版

import multiprocessing,requests,time,re,os """ 其实在我的项目内和多线程差不多，多进程多个进程之间不共享全局变量所以意思是我只需要一个全局变量就可以 """ package_list = [] # 1.每页的url从1-531，使用for循环拼接url # 2.打开url之后，使用正则findall抓取该页的具体包链接，存入package_list def get_pic_url(page):try:os.mkdir(str(page))except Exception as e:passhead = {‘User-Agent‘: ‘Mozilla/5.0 (Windo...

爬虫程序

下面是一个简单的爬虫程序。?123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132#!/usr/bin/env python fromsys importargvfromos importmakedirs, unlink, sepfromos.path...

黑马程序员正则表达式【匹配、切割、替换】【获取:Pattern & Matcher】【网页爬虫（蜘蛛）】【图】

---------------------------------------- android培训、java培训、期待与您交流！ ------------------------------------概念：正则表达式：即符合一定规则的表达式作用：专门用于操作字符串特点：用一些特定的符号来替代一些代码操作，简化书写学习正则表达式就是在学习指定其规则的符号的使用,即如何定义规则，详细方法参见API文档Pattern中正则表达式的规则组成优点：简化字符串操作步骤弊端：符号定义多时，正则越长，阅读...

爬虫小程序【代码】

（1）爬取豆瓣电影Top250https://blog.csdn.net/fighting_no1/article/details/50926008（2）爬虫博客 https://cuiqingcai.com/?s=%E7%88%AC%E8%99%ABpre.ctl { font-family: "Liberation Mono", monospace } p { margin-bottom: 0.1in; line-height: 120% } a:link { } 原文：https://www.cnblogs.com/cekong/p/9968925.html

pycharm下打开、执行并调试scrapy爬虫程序【图】

首先得有一个Scrapy项目，我在Desktop上新建一个Scrapy的项目叫test，在Desktop目录打开命令行，键入命令：scrapy startproject test1 目录结构如下：打开Pycharm，选择open 选择项目，ok 打开如下界面之后，按alt + 1，打开project 面板在test1/spiders/，文件夹下，新建一个爬虫spider.py，注意代码中的name="dmoz"。这个名字后面会用到。在test1目录和scrapy.cfg同级目录下面，新建一个begin.py文件（便于理解可...

十九、通过Scrapy提供的API在程序中启动爬虫

Scrapy在Twisted异步网络库上构建，所以如果程序必须在Twisted reactor里运行1、方式一：使用CrawlerProcess类　　CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设置Twisted reactor自动关闭。　　可以在CrawlerProcess初始化时传入设置的参数，使用crawl方式运行指定的爬虫类。　　```　　if __name__=="__main__":　　　　process = CrawlerProcess(　　　　　　{　　　　　　　　"US...

福利贴——爬取美女图片的Java爬虫小程序代码【代码】

自己做的一个Java爬虫小程序废话不多说。先上图。目录命名是用标签缩写，假设大家看得不顺眼能够等完成下载后手动改一下，比方像有强迫症的我一样。。。这是挂了一个晚上下载的总大小，只是还有非常多由于一些问题没有遍历下载到，并且会产生非常多空文件，最以下我附带了一个递归删除空目录的小程序代码。接下来是目录内部~ 图片存放位置默觉得d:\picture。可在程序中更改，main函数的开头就是，有凝视。爬取的站点为http://www....

python爬虫编写英译中小程序【代码】【图】

1.选择一个翻译页面，我选择的是有道词典（http://dict.youdao.com）2.随便输入一个英语单词进行翻译，然后查看源文件，找到翻译后的内容所在的位置，看它在什么标签里3.开始编写程序（1）首先引入requests库跟BeautifulSoup库（2）更改请求头，防止被页面发现是爬虫，可以在审查元素里找（3）确定URL，在有道是 http://dict.youdao.com/w/%s/#keyfrom=dict2.top（4）开始写简单的程序，主要内容就三行第一步：r = requests.get(ur...

华为云照片的爬虫程序更新(python3.6)【代码】【图】

一、背景：每年终都有一个习惯，就是整理资料进行归档，结果发现手机照片全备份在华为云里，在官网上找了一圈，没找到官方的pc工具用来同步照片。于是找出上次写的程序，看看能不能爬到数据，然而……果然不好用。因为华为在登录上又增加了一些验证机制，譬如：账号保护抓了一下报文，发现逻辑变复杂了很多，部分逻辑还封装在js里。算了，懒得琢磨了，直接用selenium吧。二、实现思路：1、用Python + selenium +浏览器，人工登录，...

IIS日志phpIIS日志分析搜索引擎爬虫记录程序第1/2页

使用注意：　　修改iis.php文件中iis日志的绝对路径　　例如：$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。　　( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看! 　　直接查看法：http://站点域名/iis.php 　　本地查看法：把日志下载到本地 http://127.0.0.1/iis.php ) 　　注意：　　//站点日志目录，注意该目录必须要有站点用户读取权限! 　　//如果把日志下载到本地请修...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python 爬虫第二个程序

python 爬虫第二个程序

内容导读

内容图文

内容总结

内容备注

内容手机端

【python 爬虫第二个程序】教程文章相关的互联网学习教程文章

哔哩哔哩热榜爬虫程序及数据处理【代码】

python 爬虫第二个程序【代码】

小爬虫程序进程版

爬虫程序

黑马程序员正则表达式【匹配、切割、替换】【获取:Pattern & Matcher】【网页爬虫（蜘蛛）】【图】

爬虫小程序【代码】

pycharm下打开、执行并调试scrapy爬虫程序【图】

十九、通过Scrapy提供的API在程序中启动爬虫

福利贴——爬取美女图片的Java爬虫小程序代码【代码】

python爬虫编写英译中小程序【代码】【图】

华为云照片的爬虫程序更新(python3.6)【代码】【图】

IIS日志phpIIS日志分析搜索引擎爬虫记录程序第1/2页

phpIIS日志分析搜索引擎爬虫记录程序_PHP

phpIIS日志分析搜索引擎爬虫记录程序_php实例

php IIS日志分析搜索引擎爬虫记录程序第1/2页

程序 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程