首页 / PYTHON / python – 用美丽的汤刮内部链接

python – 用美丽的汤刮内部链接

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 用美丽的汤刮内部链接，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3812字，纯文字阅读大概需要6分钟。

内容图文

我编写了一个python代码来获取与给定URL对应的Web页面,并将该页面上的所有链接解析为链接库.接下来,它从刚刚创建的存储库中获取任何url的内容,将此新内容中的链接解析到存储库中,并继续对存储库中的所有链接执行此过程,直到停止或获取给定数量的链接之后.

这里代码：

import BeautifulSoup
import urllib2
import itertools
import random


class Crawler(object):
"""docstring for Crawler"""

def __init__(self):

    self.soup = None                                        # Beautiful Soup object
    self.current_page   = "http://www.python.org/"          # Current page's address
    self.links          = set()                             # Queue with every links fetched
    self.visited_links  = set()

    self.counter = 0 # Simple counter for debug purpose

def open(self):

    # Open url
    print self.counter , ":", self.current_page
    res = urllib2.urlopen(self.current_page)
    html_code = res.read()
    self.visited_links.add(self.current_page) 

    # Fetch every links
    self.soup = BeautifulSoup.BeautifulSoup(html_code)

    page_links = []
    try :
        page_links = itertools.ifilter(  # Only deal with absolute links 
                                        lambda href: 'http://' in href,
                                            ( a.get('href') for a in self.soup.findAll('a') )  )
    except Exception: # Magnificent exception handling
        pass



    # Update links 
    self.links = self.links.union( set(page_links) ) 



    # Choose a random url from non-visited set
    self.current_page = random.sample( self.links.difference(self.visited_links),1)[0]
    self.counter+=1


def run(self):

    # Crawl 3 webpages (or stop if all url has been fetched)
    while len(self.visited_links) < 3 or (self.visited_links == self.links):
        self.open()

    for link in self.links:
        print link



if __name__ == '__main__':

C = Crawler()
C.run()

此代码不提取内部链接(仅限绝对形成的超链接)

如何获取以“/”或“#”或“.”开头的内部链接

解决方法:

好吧,你的代码已经告诉你发生了什么.在你的lambda中,你只是抓住以http：//开头的绝对链接(你没有抓住https FWIW).您应该获取所有链接并检查它们是否以http开头.如果他们不这样做,那么它们就是一个相对链接,因为您知道current_page是什么,那么您可以使用它来创建绝对链接.

这是对代码的修改.请原谅我的Python,因为它有点生疏,但我运行它,它适用于我的Python 2.7.你需要清理它并添加一些边缘/错误检测,但你得到了要点：

#!/usr/bin/python

from bs4 import BeautifulSoup
import urllib2
import itertools
import random
import urlparse


class Crawler(object):
"""docstring for Crawler"""

def __init__(self):
    self.soup = None                                        # Beautiful Soup object
    self.current_page   = "http://www.python.org/"          # Current page's address
    self.links          = set()                             # Queue with every links fetched
    self.visited_links  = set()

    self.counter = 0 # Simple counter for debug purpose

def open(self):

    # Open url
    print self.counter , ":", self.current_page
    res = urllib2.urlopen(self.current_page)
    html_code = res.read()
    self.visited_links.add(self.current_page)

    # Fetch every links
    self.soup = BeautifulSoup(html_code)

    page_links = []
    try :
        for link in [h.get('href') for h in self.soup.find_all('a')]:
            print "Found link: '" + link + "'"
            if link.startswith('http'):
                page_links.append(link)
                print "Adding link" + link + "\n"
            elif link.startswith('/'):
                parts = urlparse.urlparse(self.current_page)
                page_links.append(parts.scheme + '://' + parts.netloc + link)
                print "Adding link " + parts.scheme + '://' + parts.netloc + link + "\n"
            else:
                page_links.append(self.current_page+link)
                print "Adding link " + self.current_page+link + "\n"

    except Exception, ex: # Magnificent exception handling
        print ex

    # Update links 
    self.links = self.links.union( set(page_links) )

    # Choose a random url from non-visited set
    self.current_page = random.sample( self.links.difference(self.visited_links),1)[0]
    self.counter+=1

def run(self):

    # Crawl 3 webpages (or stop if all url has been fetched)
    while len(self.visited_links) < 3 or (self.visited_links == self.links):
        self.open()

    for link in self.links:
        print link

if __name__ == '__main__':
    C = Crawler()
    C.run()

内容总结

以上是互联网集市为您收集整理的python – 用美丽的汤刮内部链接全部内容，希望文章能够帮你解决python – 用美丽的汤刮内部链接所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/748567.html

来源：【匿名】

【上一篇】如何在python中将整数列表写入二进制文件【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 用美丽的汤刮内部链接】教程文章相关的互联网学习教程文章

Python入门小练习 002 批量下载网页链接中的图片【代码】

我们常常需要下载网页上很多喜欢的图片，但是面对几十甚至上百张的图片，一个一个去另存为肯定是个很差的体验。我们可以用urllib包获取html的源码，再以正则表达式把匹配的图片链接放入一个list中，使用for循环来依次下载list中的链接。 import re import urllib a = raw_input("Please input a URL: ") s = urllib.urlopen(a) s2 = s.read()def image(s2):reg = r‘src="(.*?\.jpg)" pic_ext‘compile_reg = re.compile(reg)imag...

python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙，主要是备忘容易出错的地方。供自己以后查阅。#图片下载import reimport urllib.request #python3中模块名和2.x（urllib）的不一样site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘page=urllib.request.urlopen(site)html=page.read()html=html.decode(‘utf-8‘) #读取下来的网页源码需要转换成utf-8格式reg=r‘src="//(gd.*?jpg)‘imgre=re.compile(reg)imgl...

小工具：使用Python自动生成MD风格链接【代码】

很久之前我在Github上搞了一个LeetCode的仓库，但一直没怎么维护。最近发现自己刷了不少LC的题目了，想搬运到这个仓库上。玩Github最重要的当然是写README了，MD的逼格决定了项目牛逼不牛逼。但是让我一个一个去手写项目中的链接那是不可能的，这辈子都不可能手写，只有写脚本自动生成才能满足装逼的样子。import os import os.path # 根目录 rootdir="E:/gitTest/LeetCode/" list=[] result=[] # 定义链接前缀 prefix="https://gi...

python下载链接内容【代码】

下面代码下载京东注册码，可接收参数a.py num dir#!/usr/bin/python #code utf-8import urllib import time import sys import osurlbase = ‘https://authcode.jd.com/verify/image?a=0&acid=52b9316d-c9ab-4169-b39e-1217deaede7b&uid=52b9316d-c9ab-4169-b39‘‘e-1217deaede7b&srcid=reg&is=7c63fc289d9ce9f3ba8304f74c1b9f19&yys=‘picnum = 10 filedir = os.getcwd() + ‘/‘ lenarg = len(sys.argv) if lenarg == 2:picnum ...

python BeautifulSoup获取网页链接的文字内容【代码】

这里和获取链接略有不同，不是得到链接到url，而是获取每个链接的文字内容#!/opt/yrd_soft/bin/pythonimport re import urllib2 import requests import lxml from bs4 import BeautifulSoupurl = ‘http://www.baidu.com‘#page=urllib2.urlopen(url) page=requests.get(url).text pagesoup=BeautifulSoup(page,‘lxml‘) for link in pagesoup.find_all(name=‘a‘,attrs={"href":re.compile(r‘^http:‘)}): print link.g...

Python通过SSH隧道链接Kafka【代码】

Python通过SSH隧道链接Kafka最近有一个需求需要连接Kafka，但是它只允许内网链接，但是有些服务跑在服务器上总没有在我本机调试起来爽，毕竟很多开发工具还是在客户端机器上用的熟练。于是我想到了通过SSH连接Kafka，至于怎么连接可以通过XShell、Proxifier等等，由于个人还是觉得自己写更灵活，所以我是用Python里的sshtunnel写的（有需要后面我也可以分享下），个人喜好啊，你们自行选择。由于笔者这里的Kafka环境使用Zookeeper做...

python基础《python链接数据库》【代码】【图】

python访问数据库本文案例基于runoob数据库下，51job表演示1，MySQL的链接import pymysql# 打开数据库连接 db = pymysql.connect("localhost", "root", "123456", "runoob")# 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor()# 使用 execute() 方法执行 SQL，如果表存在则删除 cursor.execute("DROP TABLE IF EXISTS employee")# 使用预处理语句创建表 sql = """CREATE TABLE EMPLOYEE (FIRST_NAME CHAR(20) NOT ...

python分析网页上所有超链接的方法【代码】

本文实例讲述了python分析网页上所有超链接的方法。分享给大家供大家参考。具体实现方法如下： import urllib, htmllib, formatter website = urllib.urlopen("http://yourweb.com") data = website.read() website.close() format = formatter.AbstractFormatter(formatter.NullWriter()) ptext = htmllib.HTMLParser(format) ptext.feed(data) for link in ptext.anchorlist:print(link)希望本文所述对大家的Python程序设计有所帮...

python调用C动态链接库【代码】

Python调用C库比较简单，不经过任何封装打包成so，再使用python的ctypes调用即可。1. C语言文件：pycall.c#include <stdio.h> #include <stdlib.h>int foo(int a, int b) {printf("you input %d and %d\n",a,b);return a+b; } 2. gcc编译成动态库libpycall.so: gcc -o libpycall.so -shared -fPIC pycall.c3. python调用动态库的文件：pycall.pyimport ctypes ll = ctypes.cdll.LoadLibrary lib = ll("./libpycall.so") num = lib....

python利用django实现简单的登录和注册，并利用session实现了链接数据库【代码】

利用session实现与数据库链接,登录模块（在views.py）def login(request):# return HttpResponseRedirect(‘/‘)# 判断是否post方式，如果是则进行下面的表单处理if request.method == ‘POST‘:rs = Users.objects.filter(email=request.POST.get(‘email‘), #django的filter方法是从数据库的取得匹配的结果，返回一个对象列表，如果记录不存在的话，它会返回[]。比如我数据库里有一条记录，记录的name的值是Python的话，我用st...

Python-urllib库parse模块解析链接常用方法【代码】

版权声明：本文为博主学习记录，转载请注明出处()urlparse()# urllib.parse.urlparse(urlstring,scheme=‘‘,allow_fragments=True) # urlstring : 这个是必填项,即待解析的URL result = urlparse(‘http://www.baidu.com/index.html;user?id=5#comment‘) print(type(result),result) # scheme : 它是默认的协议,只有在URL中不包含scheme信息时生效 result = urlparse(‘www.baidu.com/index.html;user?id=5#comment‘,s...

Python3常用知识库链接

入门教程Python 3 菜鸟教程Python教程廖雪峰的官方网站环境Python Releases for WindowsDownload PyCharm 文档Python 3.8.4rc1 文档PyCharm Help 社区Python中文社区知乎Pythoner集中营简书原文：https://www.cnblogs.com/soulxj/p/13253205.html

python实现网页链接提取的方法分享

复制代码代码如下:#encoding:utf-8import socketimport htmllib,formatterdef open_socket(host,servname): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) port=socket.getservbyname(servname) s.connect((host,port)) return shost=‘‘host=input(‘请输入网址\n‘)mysocket=open_socket(host,‘http‘)message=‘GET http://%s/\n\n‘%(host,)mysocket.send(message)file=mysocket.makefile()htmldata=fil...

python附录-builtins.py模块str类源码（含str官方文档链接）【代码】

python附录-builtins.py模块str类源码str官方文档链接：https://docs.python.org/3/library/stdtypes.html#text-sequence-type-strbuiltins.pyclass str(object): """ str(object=‘‘) -> str str(bytes_or_buffer[, encoding[, errors]]) -> str Create a new string object from the given object. If encoding or errors is specified, then the object must expose a data buffer that will be decoded usi...

python 站点资源链接简易爬虫【代码】

此脚本用于爬站点的下载链接，最终输出到txt文档中。如果是没有防盗链设置的站点，也可以使用脚本中的下载函数尝试直接下载。本脚本是为了短期特定目标设计的，如果使用它爬其它特征的资源链接需自行修改配置语句。python初学者，请多多指正。# -*- coding: utf-8 -*- import re import urllib import os import urllib2 import requests import time#download the file def download(page, url):local_filename =url.split(‘/‘...

首页 / PYTHON / python – 用美丽的汤刮内部链接

python – 用美丽的汤刮内部链接

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 用美丽的汤刮内部链接】教程文章相关的互联网学习教程文章

Python入门小练习 002 批量下载网页链接中的图片【代码】

python3 网页爬虫图片下载无效链接处理 try except

小工具：使用Python自动生成MD风格链接【代码】

python下载链接内容【代码】

python BeautifulSoup获取网页链接的文字内容【代码】

Python通过SSH隧道链接Kafka【代码】

python基础《python链接数据库》【代码】【图】

python分析网页上所有超链接的方法【代码】

python调用C动态链接库【代码】

python利用django实现简单的登录和注册，并利用session实现了链接数据库【代码】

Python-urllib库parse模块解析链接常用方法【代码】

Python3常用知识库链接

python实现网页链接提取的方法分享

python附录-builtins.py模块str类源码（含str官方文档链接）【代码】

python 站点资源链接简易爬虫【代码】

PYTHON - 相关标签

链接 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程