首页 / PYTHON / 使用python解析相对链接和绝对链接

使用python解析相对链接和绝对链接

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用python解析相对链接和绝对链接，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2366字，纯文字阅读大概需要4分钟。

内容图文

它是一个下载图像,音频,视频等项目.
但在某些网站上,我发现没有完整的链接.只是相对路径.
所以我不知道如何获得这些相关链接.

我的完整项目是：

https://github.com/MuneebKalathil/MaD

这是我的示例链接,我想从此链接下载所有图像.有缩略图,但我不想要那些图像.如果单击缩略图,它将转到原始图像页面.我想下载那些图片

http://www.ragalahari.com/actress/14035/kajal-aggarwal-at-memu-saitham-dinner-with-stars.aspx

部分来源是：

<tr>
<td id='pagingCell'>
</td>
</tr>
<tr>
<td align='center'><div id='galdiv' style='float:center;margin-right:3px;;margin-bottom:3px'>
<a href='/actress/14035/kajal-aggarwal-at-memu-saitham-dinner-with-stars/image1.aspx' ><img src="http://imgcdn.raagalahari.com/nov2014/starzone/kajal-agarwal-memu-saitham/kajal-agarwal-memu-saitham1t.jpg" alt="Kajal Aggarwal" title="Kajal Aggarwal at Dine with Stars Memu Saitham"></a>

而且,我想首先得到一个相对链接地址：

/actress/14035/kajal-aggarwal-at-memu-saitham-dinner-with-stars/image1.aspx

并找到它的绝对路径.

解决方法:

定义基本URL,找到所有img标记,如果src属性值不以http开头,则使用urlparse.urljoin()加入基本URL和src.

例如,使用requests和BeautifulSoup：

from urllib.parse import urljoin
import requests
from bs4 import BeautifulSoup

base_url = 'http://www.ragalahari.com'
url = 'http://www.ragalahari.com/actress/14035/kajal-aggarwal-at-memu-saitham-dinner-with-stars.aspx'

soup = BeautifulSoup(requests.get(url).content)

for img in soup.find_all('img', src=True):
    src = img.get('src')
    if not src.startswith('http'):
        src = urljoin(base_url, src)

    print(src)

打印：

http://icdn.raagalahari.com/images/ragalaharilogo.png
http://www.ragalahari.com/images/helpicon.png
http://www.ragalahari.com/images/rssicon.png
http://www.ragalahari.com/images/twittericon.png
http://www.ragalahari.com/images/facebookicon.png
http://www.ragalahari.com/images/searchicon.png
http://imgcdn.raagalahari.com/nov2014/starzone/kajal-agarwal-memu-saitham/kajal-agarwal-memu-saitham1t.jpg
http://imgcdn.raagalahari.com/nov2014/starzone/kajal-agarwal-memu-saitham/kajal-agarwal-memu-saitham2t.jpg
http://imgcdn.raagalahari.com/nov2014/starzone/kajal-agarwal-memu-saitham/kajal-agarwal-memu-saitham3t.jpg
http://imgcdn.raagalahari.com/nov2014/starzone/kajal-agarwal-memu-saitham/kajal-agarwal-memu-saitham4t.jpg
...

更新(获取链接的部分代码)：

for a in soup.select('div#galdiv a'):
    link = a.get('href')
    if not link.startswith('http'):
        link = urljoin(base_url, link)

    print(link)

内容总结

以上是互联网集市为您收集整理的使用python解析相对链接和绝对链接全部内容，希望文章能够帮你解决使用python解析相对链接和绝对链接所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/732802.html

来源：【匿名】

【上一篇】python – unorderable类型：NoneType()> str()【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用python解析相对链接和绝对链接】教程文章相关的互联网学习教程文章

零基础学python-19.8 生成器表达式：当迭代器遇上列表解析

这一章节我们来讨论一下生成器表达式。从语法上来讲，生成器表达式跟列表解析一个样，只不过列表解析放在中括号里面，而生成器表达式放在小括号里面>>> [x for x in range(5)] [0, 1, 2, 3, 4] >>> (x for x in range(5)) <generator object <genexpr> at 0x01E5F3A0> >>> list(x for x in range(5)) [0, 1, 2, 3, 4] >>> 从上面的代码可以看见，小括号返回的是一个生成器，要使用list函数才能解析里面的内容。说白了，从结果上面...

一个非常nb的 Python 命令行解析库

在 Python 中，命令行解析库有非常多的选择方案，系统自带的模块有 argparse，有 Flask 作者写的 click，但是 argparse 使用起来啰嗦，要经历解析器初始化、参数定义、解析一套流程。例如：# -*- coding: utf-8 -*- # arg_test.pyimport argparsedef counter(file_type=None): return {file_type: 100}# 初始化解析器 parser = argparse.ArgumentParser() # 定义参数 parser.add_argument("-f", "--file", help="统计指定文件类...

Python实现简单HTML表格解析的方法【代码】

本文实例讲述了Python实现简单HTML表格解析的方法。分享给大家供大家参考。具体分析如下：这里依赖libxml2dom，确保首先安装！导入到你的脚步并调用parse_tables() 函数。1. source = a string containing the source code you can pass in just the table or the entire page code2. headers = a list of ints OR a list of strings If the headers are ints this is for tables with no header, just list the 0 based index of...

【python小随笔】python解析xml格式字符串与xml文件【代码】

1：解析xml---文件from xml.dom.minidom import parse import xml.dom.minidom# 使用minidom解析器打开XML文档 DOMTree = xml.dom.minidom.parse("./test.xml") print(DOMTree) collection = DOMTree.documentElement# 集合某个标签 VariationChilds = collection.getElementsByTagName("ns2:VariationChild")# 取出集合标签下的数据for VariationChild in VariationChilds:Asin = VariationChild.getElementsByTagName(‘ASIN‘)[...

python json 解析【代码】

Encode过程，是把python对象转换成json对象的一个过程，常用的两个函数是dumps和dump函数。dic1 = {‘type‘:‘dic1‘,‘username‘:‘loleina‘,‘age‘:16}两个函数的唯一区别就是dump把python对象转换成json对象生成一个fp的文件流，而dumps则是生成了一个字符串：json_dic2 = json.dumps(dic1,sort_keys=True,indent =4,separators=(‘,‘, ‘: ‘),encoding="gbk",ensure_ascii=True )ensure_ascii：默认值True，如果dict内含...

关于Python json解析过程遇到的TypeError: expected string or buffer【代码】【图】

关于Python json解析过程遇到的问题：（爬取天气json数据所遇到的问题http://tianqi.2345.com/）part.1url——http://tianqi.2345.com/t/wea_history/js/201708/60061_201708.js返回的数据如下：这就尴尬了，直接json.loads是返回错误的。对比了其他网页返回的——http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1是不是格式问题：多了var…… 于是乎谷...

python之XML文件解析【代码】

python对XML的解析常见的XML编程接口有DOM和SAX，这两种接口处理XML文件的方式不同，当然使用场合也不同。python有三种方法解析XML，分别是SAX，DOM，以及ElementTree三种方法。以下案例依次介绍三种方法：　　先写一个关于book的xml文件<books><book id="01"><bookname>python入门</bookname><author>李强</author><price>25</price></book><book id="02"><bookname>java基础</bookname><author>王洋</author><price>30</price></...

Python paramiko模块使用解析封装方法（实现ssh）【代码】

# coding=utf-8import sys, loggingfrom paramiko.client import SSHClient, AutoAddPolicy from paramiko import AuthenticationException from paramiko.ssh_exception import NoValidConnectionsError class SshClient:def__init__(self, host_ip, username, password):# 创建ssh对象self.ssh_client = SSHClient()self.host_ip = host_ipself.username = usernameself.password = passwordself.port = 22def__enter__(self):tr...

Python解析算数表达式求值栈的使用【代码】

使用Python实现一种算数表达式求值的算法，模拟这种使用栈的方式，这是由E.W.Dijkstra在20世纪60年代发明的一种非常简单的算法。代码模拟仅仅表现一种编程思想，代码的逻辑并不完全：if__name__ == "__main__":cal_str = input("请输入算数表达式（e.g.(((1+2)*(3+5))+2), 只适合简单的算数表达式）：")num_stack = []symbol_stack = []for chr in cal_str:#print(chr)if chr == "(":continueelif chr == ""or chr == "\t"or chr =...

python解析yaml文件【代码】

YAML语法规则： http://www.ibm.com/developerworks/cn/xml/x-cn-yamlintro/下载PyYAML： http://www.yaml.org/解压安装： python setup.py install 1.新建test.yaml文件，内容如下：name: Tom Smith age: 37 spouse:name: Jane Smithage: 25 children:- name: Jimmy Smithage: 15- name1: Jenny Smithage1: 122.创建python文件test.py,内容如下：#!/usr/bin/python # -*- coding: utf-8 -*-import yamlf = open(‘test.yaml‘) ...

Python 直接赋值、浅拷贝和深度拷贝全解析【图】

直接赋值：其实就是对象的引用（别名）。浅拷贝(copy)：拷贝父对象，不会拷贝对象的内部的子对象。深拷贝(deepcopy)： copy 模块的 deepcopy 方法，完全拷贝了父对象及其子对象。字典浅拷贝实例实例1234567>>>a = {1: [1,2,3]}>>> b = a.copy()>>> a, b({1: [1, 2, 3]}, {1: [1, 2, 3]})>>> a[1].append(4)>>> a, b({1: [1, 2, 3, 4]}, {1: [1, 2, 3, 4]})深度拷贝需要引入 copy 模块：实例1234567>>>import copy>>> c = copy.deep...

【Python中if name == 'main': 的解析】【代码】

在很多Python代码中，在代码的最下方会看到 if __name__ == ‘__main__‘:，这段代码到底有什么用呢？在理解这个语句的作用前，需要知道的是，一般的Python文件后缀为.py，其可以拿来执行，也可以用来作为模块使用import导入。当Python解析器读取一个源文件时它会执行所有的代码。在执行代码前会定义一些特殊的变量。如果解析器运行的模块(源文件)作为主程序，它将会把__name__变量设置成”__main__”。如果只是引入其他的模块,__...

python解析库之 XPath【代码】【图】

1. XPath (XML Path Language) XML路径语言2. XPath 常用规则:　　nodename 选取此节点的所有子节点　　/ 从当前结点选取直接子节点　　// 从当前结点选取子孙节点　　. 选取当前结点　　.. 选取当前结点的父节点　　@ 选取属性3. 实例 1from lxml import etree2 3 text = ‘‘‘ 4<div>5 <ul>6 <li class="item-0"><a h...

python 点滴记录10：列表解析【代码】

列表解析语法格式：第一种格式：[expr for iter_var in iterable]迭代iterable里的每一个元素，每迭代一个，就把一个元素放入iter_var。然后在表达式(expr)中应用iter_var中的内容。eg：[random.randint(0,101) for i in range(10)] ＃随机抽取0到100之间的10个数字第二种格式：[expr for iter_var in iterable if cond_expr]只有符合if条件的元素才会被放入iter_var中，然后再在表达式中应用iter_var内容。eg：[x + 10 for x in ...

python 读取mysql存储的文件路径下载文件，内容解析，上传七牛云，内容入es【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import ConfigParser import json import os import re from re import sub import sys import time import requests from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal, LAParams from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage i...

首页 / PYTHON / 使用python解析相对链接和绝对链接

使用python解析相对链接和绝对链接

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用python解析相对链接和绝对链接】教程文章相关的互联网学习教程文章

零基础学python-19.8 生成器表达式：当迭代器遇上列表解析

一个非常nb的 Python 命令行解析库

Python实现简单HTML表格解析的方法【代码】

【python小随笔】python解析xml格式字符串与xml文件【代码】

python json 解析【代码】

关于Python json解析过程遇到的TypeError: expected string or buffer【代码】【图】

python之XML文件解析【代码】

Python paramiko模块使用解析封装方法（实现ssh）【代码】

Python解析算数表达式求值栈的使用【代码】

python解析yaml文件【代码】

Python 直接赋值、浅拷贝和深度拷贝全解析【图】

【Python中if name == 'main': 的解析】【代码】

python解析库之 XPath【代码】【图】

python 点滴记录10：列表解析【代码】

python 读取mysql存储的文件路径下载文件，内容解析，上传七牛云，内容入es【代码】

PYTHON - 相关标签

链接 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程