首页 / PYTHON / 利用python脚本（xpath）抓取数据

利用python脚本（xpath）抓取数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用python脚本（xpath）抓取数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3200字，纯文字阅读大概需要5分钟。

内容图文

有人会问re和xpath是什么关系？如果你了解js与jquery，那么这个就很好理解了。

            #
             -*- coding:utf-8 -*-
            from lxml import etree

html = """
    <!DOCTYPE html>
    <html>
        <head lang="en">
        <title>我的文档</title>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
        </head>
        <body>
            <div id="cctv">
                <div class="content">
                    <ul id="ul">
                        <li>NO.1</li>
                        <li>NO.2</li>
                        <li>NO.3</li>
                    </ul>
                    <ul id="ul2">
                        <li><span class="ctv">one</span></li>
                        <li><span class="ctv">two</span></li>
                    </ul>
                </div>
                <div id="url">
                    <a href="http://www.jd.com" title="jd">jd</a>
                    <a href="http://www.360buy.com" title="360buy">360buy</a>
                </div>
            </div>
        </body>
    </html>
"""
selector = etree.HTML(html)

# ########### example 1 ############
# 这里使用id属性来定位哪个div和ul被匹配 使用text()获取文本内容
# 这里注意要层层匹配
# content = selector.xpath(‘//div[@id="cctv"]/div[@class="content"]/ul[@id="ul"]/li/text()‘)
# content = selector.xpath(‘//div[@id="cctv"]/div[@class="content"]/ul[@id="ul2"]/li/span[@class="ctv"]/text()‘)
content = selector.xpath(‘//a/@href‘)

for i in content:
    print(i)
print(u"************ 华丽分割符1 ************")

# ########### example 2 ############
# 使用绝对路径定位a标签的title
con = selector.xpath(‘/html/body/div/a/@title‘)
# 使用相对路径定位 两者效果是一样的
con = selector.xpath(‘//a/@title‘)
print(len(con))
print(con[0], con[1])
print(u"************ 华丽分割符2 ************")

# ########### example 3 ############
# starts-with 解决标签属性值以相同字符串开头的情况
con2 = selector.xpath(‘//span[starts-with(@class,"c")]/text()‘)  # 这里使用starts-with方法提取div的id标签属性值开头为a的div标签for i in con2:
    print(i)
print(u"************ 华丽分割符3 ************")

# string(.) 标签套标签
html2 = ‘‘‘
   <div id="a">
       left
        <span id="b">
           right
            <ul>
               up
                <li>down</li>
            </ul>
           east
        </span>
        west
    </div>
‘‘‘# 下面是没有用string方法的输出
selector2 = etree.HTML(html2)
con3 = selector2.xpath(‘//div[@id="a"]/text()‘)
for i in con3:
    print(i)
print(u"************ 华丽分割符4 ************")

# 下面使用string方法的输出
data = selector2.xpath(‘//div[@id="a"]‘)
# info = data[0].xpath(‘string(.)‘).extract()[0]
info = data[0].xpath(‘string(.)‘)
con4 = info.replace(‘\n‘, ‘‘).replace(‘‘, ‘‘)
for i in con4:
    # python 输出结果默认是\n，换行，将结尾替换掉即可实现不换行。print(i, end=‘‘)
print("\r")
print(u"************ 华丽分割符5 ************")

# ########### example 4 ############
html3 = """
    <div>hello
        <p>H</p>
    </div>
    <div>hehe</div>
"""
selector3 = etree.HTML(html3)
# 使用text()的方法来判别是哪个div标签
con5 = selector3.xpath(‘//div[text()="hehe"]/text()‘)
print(con5[0])
print(u"************ 华丽分割符6 ************")

# ########### example 5 ############
html4 = """
    <div id="utv">hello
        <p>H</p>
        <p>J</p>
        <p>I</p>
    </div>
    <div>hehe</div>
"""
selector4 = etree.HTML(html4)
# 在XPath中可以使用多重过滤方法寻找标签，例如ul[3][@id=”a”] 这里使用【3】来寻找第三个ul标签 并且它的id属性值为a
con6 = selector4.xpath(‘//div/p[position()>=2]/text()‘)
for i in con6:
    print(i)
print(u"************ 华丽分割符7 ************")

原文：http://www.cnblogs.com/hunttown/p/6703791.html

内容总结

以上是互联网集市为您收集整理的利用python脚本（xpath）抓取数据全部内容，希望文章能够帮你解决利用python脚本（xpath）抓取数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1330519.html

来源：【匿名】

【上一篇】Python 切片【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【利用python脚本（xpath）抓取数据】教程文章相关的互联网学习教程文章

利用python脚本（xpath）抓取数据【代码】

有人会问re和xpath是什么关系？如果你了解js与jquery，那么这个就很好理解了。上一篇：利用python脚本（re）抓取美空mm图片# -*- coding:utf-8 -*-from lxml import etreehtml = """<!DOCTYPE html><html><head lang="en"><title>我的文档</title><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /></head><body><div id="cctv"><div class="content"><ul id="ul"><li>NO.1</li><li>NO.2</li><li>NO.3</li></...

CSV文件分割与列异常处理的python脚本【代码】

csv文件通常存在如下问题： 1. 文件过大（需要进行文件分割）2. 列异常(列不一致，如元数据列为10列，但csv文件有些行是11列，或者4列)本脚本用于解决此问题。#coding=utf-8‘‘‘ 脚本说明用来解决csv文件的列异常问题（以逗号分隔符为例）：csv文件有些列含有换行符、逗号等特殊符号，这就导致csv文件出现列异常的情况。此脚本将csv文件输出成如下文件：源文件名-正确列-文件序号.csv 源文件名-错误列.csv 源文件名-info.txt 常用...

rpm打包时包含python脚本，需要忽略掉pyc, pyo字节码文件

制作rpm包时，有时包含python程序，一般默认的行为：打包时对python脚本会编译成pyc，pyo字节码文件并一起放在rpm包中，这可能导致打包时引用文件缺失的错误。如果不需要这些字节码文件，可以修改/usr/lib/rpm/brp-python-bytecompile找到编译pyc,pyo的两条命令，并将其注释，或者直接在脚本开头就用exit 0 退出。但是要注意，如果已经打了一次包并在pyc,pyo文件缺失的步骤上失败，则打包的临时目录中可能残留了文件，需要把临时目...

Python脚本性能分析【代码】【图】

来自：http://www.cnblogs.com/btchenguang/archive/2012/02/03/2337112.htmldef foo():sum = 0for i in range(10000):sum += isumA = bar()sumB = bar()return sumdef bar():sum = 0for i in range(100000):sum += ireturn sumif__name__ == "__main__":import cProfile#直接把分析结果打印到控制台cProfile.run("foo()")#把分析结果保存到文件中,不过内容可读性差...需要调用pstats模块分析结果cProfile.run("foo()", "result")#...

使用python脚本进行数据清洗（1）【代码】【图】

1.原始表CREATETABLE ml_100k (userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY‘\t‘ LINES TERMINATED BY‘\n‘ STORED AS TEXTFILE; 数据清洗后的表CREATETABLE ml_100k2 (userid INT, movieid INT, rating INT, weekday int) ROW FORMAT DELIMITED FIELDS TERMINATED BY‘\t‘ LINES TERMINATED BY‘\n‘ STORED AS TEXTFILE; 3.数据导入LOAD DATA LOCAL...

Python脚本--批量更改本地md文件的图片链接【代码】

#-*- coding:utf-8 -*-import re import osdef patch_md(filename):if filename.endswith(‘.md‘):return Truereturn Falsedef _patch_replace(text):pattern=re.compile(r‘(?<=!)\[.*\]\((.*)(?=\))‘)result = re.findall(pattern,text)for filedir in result:if‘\\‘in filedir:listfile = filedir.split(‘\\‘)else:listfile = filedir.split(‘/‘)pattern_file = r‘(?<=!)\[.*\]\(.*[\\/]+(?=‘+listfile[-1]+r‘\))‘p...

python脚本文件删除

昨天有需求需要用python脚本删除一个目录下的文件。遇到了点麻烦。使用的是shutil.rmtree(dir)函数，这个函数可以删除有内容的目录，而shutil.rmdir(dir)只能删除空目录。1、一删除就报错，最后怀疑是账户权限问题，更改了账户的权限以后，可以删除部分文件了，但还是有文件不可以删除2、在网上查到可能是因为文件属性的问题，果真删不掉的文件都是只读的。如果想删除这些文件需要先修改其属性。 shutil模块是没有类似函数的，于是...

利用Python脚本备份服务器上所有PostgreSQL数据库【代码】

脚本内容#! /usr/local/python3/bin/pythonimport os import psycopg2 import timedb_host = "172.16.101.54" db_port = 5432 db_user = "dbadmin" db_password = "agm43gadsg" db_default = "postgres" backup_path = "/usr/local/pgsql/dba/exp" backup_day = time.strftime("%Y%m%d") databases = []# check backup path if exists.def check_backup_path():ifnot os.path.exists(backup_path):os.mkdir(backup_path)# get all ...

python脚本【代码】

数据库mysql连接练习查询某个目录下的所有文件内容中的sql语句，并执行到数据库中。#!/usr/bin/env python # -*- coding:utf8 -*-# 导入库 from pathlib import Path import pymysqltry:# 数据库连接方式定义，并调用cursor方法连接db = pymysql.connect(host=‘localhost‘, port=3306, user=‘root‘, passwd=‘123456@Hsh‘)conn = db.cursor()# 定义目录位置file_base = Path(r‘/server/tmp/files‘)# 定义一个空列表lineu = ...

ArcGis Python脚本——根据接图表批量裁切分幅影像【代码】

年前写了一个用渔网工具制作图幅接图表的文章，链接在这里：使用ArcMap做一个1:5000标准分幅图并编号本文提供一个使用ArcMap利用接图表图斑裁切一幅影像为多幅的方法。第一步，将接图表拆分，使之每一个图斑为一个要素类（Shapefile文件）拆分方法很多，提供两个参考：1、可以使用Python脚本2、可以使用ArcToolbox——分析工具——split拆分的结果是每个影像框图斑为一个Shapefile文件，所有Shapefile文件生成在一个文件夹下。第二...

使用windows定时任务运行python脚本【代码】【图】

mail_receive_monitor05.pyimport zmail from tkinter import * import tkinter.messageboxserver = zmail.server(‘reblue520@163.com‘, ‘reblue.520‘) mail = server.get_latest()new_id = mail[‘id‘]file_read = open(‘id.txt‘, ‘r‘) old_id = file_read.readline() file_write = open(‘id.txt‘, ‘w‘) file_write.write(str(new_id)) file_write.close()if old_id != str(new_id):main_window = Tk()main_window.w...

将Python脚本打包成可执行文件

Python是一个脚本语言，被解释器解释执行。它的发布方式： · .py文件：对于开源项目或者源码没那么重要的，直接提供源码，需要使用者自行安装Python并且安装依赖的各种库。（Python官方的各种安装包就是这样做的） · .pyc文件：有些公司或个人因为机密或者各种原因，不愿意源码被运行者看到，可以使用pyc文件发布，pyc文件是Python解释器可以识别的二进制码，故发布后也是跨平台的，需要使用者安装相应版本的Python和依...

Linux下用Python脚本监控目录变化代码分享【代码】

#!/usr/bin/env python #coding=utf-8import os from pyinotify import WatchManager, Notifier, ProcessEvent, IN_DELETE, IN_CREATE,IN_MODIFY wm = WatchManager() mask = IN_DELETE | IN_CREATE |IN_MODIFY # watched eventsclass PFilePath(ProcessEvent):def process_IN_CREATE(self, event):print "Create file: %s " % os.path.join(event.path, event.name)def process_IN_DELETE(self, event):print "Delete file: ...

shell脚本中执行python脚本并接收其返回值的例子

1.在shell脚本执行python脚本时，需要通过python脚本的返回值来判断后面程序要执行的命令例:有两个py程序 hello.py复制代码代码如下:def main(): print "Hello" if __name__==‘__main__‘: main()world.pydef main(): print "Hello"if __name__==‘__main__‘: main()shell 脚本 test.sh复制代码代码如下:python hello.pypython world.py执行sh test.sh 打印结果为复制代码代码如下:　　hello　　world在hello.py中...

python脚本字符串前加r u是什么意思【代码】

网上查看资料： u/U:表示unicode字符串不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。建议所有编码方式采用utf8r/R:非转义的原始字符串与普通字符相比，其他相对特殊的字符，其中可能包含转义字符，即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见...

首页 / PYTHON / 利用python脚本（xpath）抓取数据

利用python脚本（xpath）抓取数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【利用python脚本（xpath）抓取数据】教程文章相关的互联网学习教程文章

利用python脚本（xpath）抓取数据【代码】

CSV文件分割与列异常处理的python脚本【代码】

rpm打包时包含python脚本，需要忽略掉pyc, pyo字节码文件

Python脚本性能分析【代码】【图】

使用python脚本进行数据清洗（1）【代码】【图】

Python脚本--批量更改本地md文件的图片链接【代码】

python脚本文件删除

利用Python脚本备份服务器上所有PostgreSQL数据库【代码】

python脚本【代码】

ArcGis Python脚本——根据接图表批量裁切分幅影像【代码】

使用windows定时任务运行python脚本【代码】【图】

将Python脚本打包成可执行文件

Linux下用Python脚本监控目录变化代码分享【代码】

shell脚本中执行python脚本并接收其返回值的例子

python脚本字符串前加r u是什么意思【代码】

PYTHON脚本 - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程