【Python数据采集--Beautifulsoup的使用】教程文章相关的互联网学习教程文章

Python采集代理ip并判断是否可用和定时更新的方法

这篇文章主要介绍了关于Python采集代理ip并判断是否可用和定时更新的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。代码如下:# -*- coding: utf-8 -*- import re import urllib2 import json import os import time import socket class ProxyIp(object):def __init__(self):self.path = os.pat...

Python数据采集--Beautifulsoup的使用

Python网络数据采集1-Beautifulsoup的使用来自此书: [美]Ryan Mitchell 《Python网络数据采集》,例子是照搬的,觉得跟着敲一遍还是有作用的,所以记录下来。import requestsfrom bs4 import BeautifulSoupres = requests.get(https://www.pythonscraping.com/pages/page1.html) soup = BeautifulSoup(res.text, lxml)print(soup.h1)<h1>An Interesting Title</h1>使用urllib访问页面是这样的,read返回的是字节,需要解码为utf-8的...

python采集中文乱码问题的方法

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录1. 在正常情况下..可以用import chardetthischarset = chardet.detect(strs)["encoding"]来获取该文件或页面的编码方式或直接抓取页面的charset = xxxx 来获取2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.strs = strs.decode("UT...

Python简单两步实现天气爬虫采集器

说道爬虫大家或许感觉非常神秘,其实它没有我们想象的那么神奇(当然,google和baidu的爬虫是一场复杂和强大的,它的强大不是爬虫本身强大,而是后台的数据处理和数据挖掘算法非常强大),今天我们就来揭开它神秘的面纱。呵呵,简单两步就可以实现一个网页天气爬虫程序。。。爬虫简单说来包括两个部分:1.获得网页文本信息。2.数据分析,获取其中我们想要的数据。1、获得网页文本信息。python在获取html方面十分方便,有了urllib库...

python定时采集摄像头图像上传ftp服务器功能实现

首先是截图,从摄像头截取一幅图像:代码如下:while 1: #测试摄像头的存在 try: cam = Device() except: print "no webcam found!" continue break 然后是把图像上传到ftp服务器:代码如下:remote = ftplib.FTP(127.0.0.1) #登陆服务器remote.login()file = open(%s.jpg%cur_time,rb) #用时间来命名图片remote.storbinary(STOR %s.jpg%cur_time,file) #上传图片file.close() 当然了,最后把图片删除...

python网络爬虫采集联想词示例

python爬虫_采集联想词代码代码如下:#coding:utf-8import urllib2import urllibimport reimport timefrom random import choice#特别提示,下面这个list中的代理ip可能失效,请换上有效的代理ipiplist = [27.24.158.153:81,46.209.70.74:8080,60.29.255.88:8888] list1 = ["集团","科技"]for item in list1: ip= choice(iplist) gjc = urllib.quote(item) url = "http://sug.so.360.cn/suggest/word?callback=suggest_so...

python实现多线程采集的2个代码例子

代码一:#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8import threading import Queue import sys import urllib2 import re import MySQLdb# # 数据库变量设置 # DB_HOST = 127.0.0.1 DB_USER = "XXXX" DB_PASSWD = "XXXXXXXX" DB_NAME = "xxxx"# # 变量设置 # THREAD_LIMIT = 3 jobs = Queue.Queue(5) singlelock = threading.Lock() info = Queue.Queue()def workerbee(inputlist):for x in xrange(THREAD_LIMIT)...

python采集博客中上传的QQ截图文件

哎,以前写博文的时候没注意,有些图片用QQ来截取,获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式,昨天用ftp备份网站文件的时候发现,中文名在flashfxp里面显示的是乱码的,看起来好难受,所以写了一个python小脚本,爬取整个网站,然后获取每个文章页面的图片名,并判断如果是类似于QQ截图20120926174732-300×15.png的形式就输出并将该图片地址和对应的文章地址保存在文件中,然后通过该文件来逐个修改。 好...

Python使用scrapy采集数据过程中放回下载过大页面的方法

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下: 添加以下代码到settings.py,myproject为你的项目名称代码如下:DOWNLOADER_HTTPCLIENTFACTORY = myproject.downloader.LimitSizeHTTPClientFactory 自定义限制下载过大页面的模块代码如下:MAX_RESPONSE_SIZE = 1048576 # 1Mb from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGe...

基于scrapy实现的简单蜘蛛采集程序

本文实例讲述了基于scrapy实现的简单蜘蛛采集程序。分享给大家供大家参考。具体如下:# Standard Python library imports # 3rd party imports from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector # My imports from poetry_analysis.items import PoetryAnalysisItem HTML_FILE_NAME = r.+\.html class Poe...

Python基于scrapy采集数据时使用代理服务器的方法

本文实例讲述了Python基于scrapy采集数据时使用代理服务器的方法。分享给大家供大家参考。具体如下:# To authenticate the proxy, #you must set the Proxy-Authorization header. #You *cannot* use the form http://user:pass@proxy:port #in request.meta[proxy] import base64 proxy_ip_port = "123.456.789.10:8888" proxy_user_pass = "awesome:dude" request = Request(url, callback=self.parse) # Set the location o...

python采集百度百科的方法

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:get_baike.py import urllib2,re import sys def getHtml(url,time=10):response = urllib2.urlopen(url,timeout=time)html = response.read()response.close()return html def clearBlank(html):if len(html) == 0 : return html = re.sub(\r|\n|\t,,html)while html.find(" ")!...

python实现自动登录人人网并采集信息的方法

本文实例讲述了python实现自动登录人人网并采集信息的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/python # -*- coding: utf-8 -*- import sys import re import urllib2 import urllib import cookielib class Renren(object):def __init__(self):self.name = self.pwd = self.content = self.domain = self.origURL = self.operate = #登录进去的操作对象self.cj = cookielib.LWPCookieJar()try: self.cj.revert(...

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

1.在Scrapy工程下新建“middlewares.py”# Importing base64 library because well need it ONLY in case if the proxy we are going to use requires authentication import base64# Start your middleware class class ProxyMiddleware(object):# overwrite process requestdef process_request(self, request, spider):# Set the location of the proxyrequest.meta[proxy] = "http://YOUR_PROXY_IP:PORT"# Use the following l...

python实现的一个火车票转让信息采集器

好吧,我承认我是对晚上看到一张合适的票转让但打过电话去说已经被搞走了这件事情感到蛋疼。直接上文件吧。#coding: utf-8 春运查询火车票转让信息 Author: piglei2007@gmail.com Date: 2011.01.25 import re import os import time import urlparse import datetime import traceback import urllib2 import socket socket.setdefaulttimeout(20)BLANK_RE = re.compile(r"\s+")opener = urllib2.build_opener(urllib2.HTTPCooki...