首页 / PYTHON / python url采集

python url采集

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python url采集，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2306字，纯文字阅读大概需要4分钟。

内容图文

python利用百度做url采集
python url采集 - 文章图片
pip install tableprint
paramiko==2.0.8
语法：python url_collection.py -h输出帮助信息
python url_collection.py 要采集的信息 -p 页数 -t 进程数 -o 保存的文件名以及格式
新建文件touch url_collection.py
写入代码正式部分

#coding: utf-8
import requests
from bs4 import BeautifulSoup as bs
import re
from Queue import Queue
import threading
from argparse import ArgumentParser
logo="""
u u l | ccccc ooooo l l eeeeee cccccc ttttttt
u u r rr l | c o o l l e c t
u u r r r l | c o o l l eeeeee c t
u u r l | c o o l l e c t
u u u r l | c o o l l e c t
uuuuuuuu u r lllll | ccccc ooooo llllll lllll eeeeee cccccc t
By : Snow wolf
"""
print(logo)
arg = ArgumentParser(description='baidu_url_collect py-script by snowwolf')
arg.add_argument('keyword',help='keyword like inurl:.?id= for searching sqli site')
arg.add_argument('-p','--page', help='page count', dest='pagecount', type=int)
arg.add_argument('-t','--thread', help='the thread_count', dest='thread_count', type=int, default=10)
arg.add_argument('-o','--outfile', help='the file save result', dest='outfile', default='result.txt')
result = arg.parse_args()
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

class Bd_url(threading.Thread):
def init(self, que):
threading.Thread.init(self)
self._que = que

def run(self):
    while not self._que.empty():
        URL = self._que.get()
        try:
            self.bd_url_collect(URL)
        except Exception,e:
            print e
            pass

def bd_url_collect(self, url):
        r = requests.get(url, headers=headers, timeout=3)
        soup = bs(r.content, 'lxml', from_encoding='utf-8')
        bqs = soup.find_all(name='a', attrs={'data-click':re.compile(r'.'), 'class':None})
        for bq in bqs:
            r = requests.get(bq['href'], headers=headers, timeout=3)
            if r.status_code == 200:
                print r.url
                with open(result.outfile, 'a') as f:
                    f.write(r.url + '\n')

def main():
thread = []
thread_count = result.thread_count
que = Queue()
for i in range(0,(result.pagecount-1)*10,10):
que.put('https://www.baidu.com/s?wd=' + result.keyword + '&pn=' + str(i))

for i in range(thread_count):
    thread.append(Bd_url(que))

for i in thread:
    i.start()

for i in thread:
    i.join()

if name == 'main':
main()

代码结束

内容总结

以上是互联网集市为您收集整理的python url采集全部内容，希望文章能够帮你解决python url采集所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/843335.html

来源：【匿名】

【上一篇】Python第三方模块【Pygame】【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python url采集】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

一、需求编写一个用于验证员工登录并采集员工信息的接口员工尝试登录次数为3次，超过三次被锁定员工输入个人信息并存档，可重复输入两次，若两次输入个人信息错误，则程序结束二、代码#!/usr/bin/env python #_*_coding:utf-8_*_ import sys from imaplib import Continuation username = ‘mangguo‘ password = ‘json‘ try_time = 0 while try_time < 3: username_input = raw_input(‘input your username:‘) if use...

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

目录前言准备分析（x0）分析（x1）分析（x2）分析（x3）分析（x4）总结我有话说前言大家好，我叫善念。不说漂亮话，直接开始今天要采集的目标：某宝数据今天要采用的方式是selenium自动化工具。简单说下selenium的原理——利用网页元素控制浏览器。准备安装selenium模块： pip install selenium 我采用的是利用selenium控制Chrome浏览器，所以咱们需要下载一个selenium与Chrome的桥梁——Chromedriver插件下载地...

杂记使用Python采集网页内容【代码】

BeautifulSoup 一个分析、处理DOM树的类库。采集所有img标签的title属性的内容# -*- coding: utf-8 -*- from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoupurl = "http://qa.beloved999.com/category/view?id=2" url = "http://beloved.finley.com/category/view?id=24" html = urlopen(url) bs = BeautifulSoup(html.read(),"html.parser")...

Python网络数据采集

Python网络数据采集（高清版）PDF百度网盘链接：https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q提取码：febb复制这段内容后打开百度网盘手机App，操作更方便哦内容简介 · · · · · ·本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据 by:授客 QQ：1033553122 实现功能测试环境环境搭建使用前提使用方法运行程序效果展示实现功能无需在被监控主机上安装代理，一键对Linux远程服务器不同主机执行性能监控、性能数据采集命令，并实时展示支持跨堡垒机收集实时性能数据(注：定制化开发，非通用) 支持docker容器(因为程序实现是从docker容器内部获取性能数据，所以目前仅支持 CPU,内存,I/O) 使...

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集，列表里面能够取得每个文章的id，而每个文章又是通过一个统一的接口（参数带上那个文章id即可获取到对应的json）里面又有一部分数据需要采集然后进行数据分析。目前有什么比较成熟的框架或者轮子能够实现我的需求吗？（要多线程，而且可以7x24小时稳定运行，因为采集数量巨大）另外问一下，采集到的内容如何存储（百万到千万），数据里面有一些数字数据，...

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！回复内容：简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！虽然知道php不是和采集，但是还一直在用php，因为其他的不会。。。优势就是库...

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

写在前面的话接下来的这个月要忙着应付期末的各种事情了, 可能不太有时间写博客了. 看过我博客的, 对于我博客的”又长又臭”可能有所了解, 平均一篇都要花费我2.5天时间. 这次, 我先把之前做的笔记放出来, 美其名曰: 先睹为快, 算作以后的一个系列吧. 稍后应该可能也许大概会有修订版, 对笔记的内容作进一步的梳理总结. 笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸 ...

Python实时数据采集-新型冠状病毒【代码】【图】

Python实时数据采集-新型冠状病毒源代码来源：https://github.com/Programming-With-Love/2019-nCoV疫情数据时间为：2020.2.1项目相关截图：全国数据展示国内数据展示国外数据展示查看指定区域详细数据源代码，注意安装所需模块（例如 pip install 模块名）import requests import re from bs4 import BeautifulSoup from time import sleep import json from prettytable import ALL from prettytable import PrettyTablehubei =...

Python采集--数据的储存【图】

Python网络数据采集3-数据存到CSV以及MySql先热热身，下载某个页面的所有图片。import requestsfrom bs4 import BeautifulSoupheaders = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193}start_url = https://www.pythonscraping.comr = requests.get(start_url, headers=headers) soup = BeautifulSoup(r.text, lxml)# 获取...

用python写的一个wordpress的采集程序【图】

在学习python的过程中，经过不断的尝试及努力，终于完成了第一个像样的python程序，虽然还有很多需要优化的地方，但是目前基本上实现了我所要求的功能，先贴一下程序代码：具体代码如下:#! /usr/bin/pythonimport os,urllib2,re,time,MySQLdb,sysreTitle = re.compile(<font[^>]*>(.*?)<\/font><font[^>]*)reNeiron = re.compile([1-9|A-Z|a-z].*)retiqu = re.compile(^(?!MARGINWIDTH|BR).*.[^>|}]$)re...

首页 / PYTHON / python url采集

python url采集

内容导读

内容图文

内容总结

内容备注

内容手机端

【python url采集】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

杂记使用Python采集网页内容【代码】

Python网络数据采集

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

Python实时数据采集-新型冠状病毒【代码】【图】

Python采集--数据的储存【图】

用python写的一个wordpress的采集程序【图】

PYTHON - 相关标签

URL - 相关标签

采集 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程