爬虫神器xpath的用法（二）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫神器xpath的用法（二），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1260字，纯文字阅读大概需要2分钟。

内容图文

爬取网页内容的时候，往往网页标签比较复杂，对于这种情况，需要用xpath的starts-with和string(.)功能属性来处理，具体看事例

            #
            encoding=utf-8
            from lxml import etree
html1 = ‘‘‘
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title></title>
</head>
<body>
    <div id="test-1">需要的内容1</div>
    <div id="test-2">需要的内容2</div>
    <div id="testfault">需要的内容3</div>
</body>
</html>
‘‘‘#提取id属性为test开头的的内容,需要使用xpath的start-with属性
selector = etree.HTML(html1)
content = selector.xpath(‘//div[starts-with(@id,"test")]/text()‘)
for each in content:
    print each

#提取多个标签层级的内容，需要使用xpath的string(.)将内容转为字符串再获取
html2 = ‘‘‘
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title></title>
</head>
<body>
    <div id="test3">
        我左青龙，
        <span id="tiger">
            右白虎，
            <ul>上朱雀，
                <li>下玄武。</li>
            </ul>
            老牛在当中，
        </span>
        龙头在胸口。
    </div>
</body>
</html>
‘‘‘
selector1 = etree.HTML(html2)
data = selector1.xpath(‘//div[@id="test3"]‘)[0]
info = data.xpath(‘string(.)‘)
content = info.replace(‘\n‘,‘‘).replace(‘‘,‘‘)
print content

输出：

需要的内容1
需要的内容2
需要的内容3
我左青龙，右白虎，上朱雀，下玄武。老牛在当中，龙头在胸口。

原文：http://www.cnblogs.com/gide/p/5246727.html

内容总结

以上是互联网集市为您收集整理的爬虫神器xpath的用法（二）全部内容，希望文章能够帮你解决爬虫神器xpath的用法（二）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1062216.html

来源：【匿名】

【上一篇】[Python]python爬虫简单试用【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫神器xpath的用法（二）】教程文章相关的互联网学习教程文章

爬取网页内容的时候，往往网页标签比较复杂，对于这种情况，需要用xpath的starts-with和string(.)功能属性来处理，具体看事例#encoding=utf-8from lxml import etree html1 = ‘‘‘ <!DOCTYPE html> <html> <head lang="en"><meta charset="UTF-8"><title></title> </head> <body><div id="test-1">需要的内容1</div><div id="test-2">需要的内容2</div><div id="testfault">需要的内容3</div> </body> </html> ‘‘‘#提取id属性...

以视频爬取实例讲解Python爬虫神器BeautifulSoup用法

1.安装BeautifulSoup4 easy_install安装方式,easy_install需要提前安装easy_install beautifulsoup4 pip安装方式,pip也需要提前安装.此外PyPi中还有一个名字是 BeautifulSoup 的包,那是 Beautiful Soup3 的发布版本.在这里不建议安装.pip install beautifulsoup4 Debain或ubuntu安装方式apt-get install Python-bs4 你也可以通过源码安装,下载BS4源码Python setup.py install2.小试牛刀# coding=utf-8 @通过BeautifulSoup下载百度...

爬虫入门【8】Python连接MongoDB的用法简介【代码】

pymongo import MongoClient client=MongoClient() #这是设置连接默认主机和端口，也可以明确指定主机和端口 from pymongo import MongoClient #client = MongoClient() client = MongoClient(‘localhost‘, 27017) #client = MongoClient(‘mongodb://localhost:27017/‘) #上面几种方法都可以。获取数据库如果连接已经成功的话，那么我们就要开始访问数据库了：第一种方法是用Client实例的属性方法，也就是.DatabaseName的方...

Python 爬虫利器三之 Xpath 语法与 lxml 库的用法【代码】

原文链接https://cuiqingcai.com/2621.html 前言前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml 用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。 lxml XPath 语法参考 w3school w3school 视频...

Python 爬虫利器二之 Beautiful Soup 的用法【代码】

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫 Beautiful Soup，有了它我们可以很方便地提取出 HTML 或 XML 标签中的内容，实在是方便，这一节就让我们一起来感受一下 Beautiful Soup 的强大吧。 1. Beautiful Soup 的简介简单来说，Beautiful Soup 是 python 的一个...

Python爬虫利器一之Requests库的用法

注：Python 版本依然基于 2.7前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。官方文档以下内容大多来自于官方文档，本文进行了一些修改和总结。要了解更多可以参考官方文档http://docs.python-requests.org/en/master/安装利用 pip 安装...

python爬虫学习笔记(四)-urllib库的高级用法【代码】

1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作1.1 设置请求头其中User-Agent代表用的哪个请求的浏览器代码如下： from urllib.request import urlopen from urllib.request import Requesturl = 'http://www.server.com/login' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } re...

python爬虫的进阶用法【代码】

应用场景： 01：去爬虫微信公众号文章，已知requests的执行方式实际就是执行里面request方法，我们进行重写request方法的init，加入我们需要的字段：如　　callback --获取response执行回调函数 need_proxy --是否需要代理fail_time --执行get获取url的失败次数　timeout = 10 from requests import Request TIMEOUT = 10 class WeixinRequest(Request):def __init__(self,url,callback,method=GET,headers=None,need_proxy...

python爬虫---requests库的用法【代码】【图】

原文链接：https://www.cnblogs.com/mzc1997/p/7813801.htmlrequests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多因为是第三方库，所以使用前需要cmd安装 pip install requests 安装完成后import一下，正常则说明可以开始使用了。基本用法： requests.get()用于请求目标网站，类型是一个HTTPresponse类型import requestsresponse = requests.get(http://www.baidu.com) print(response.status_code) # 打印状态码...

Python之爬虫（十九） Scrapy框架中Download Middleware用法【代码】【图】

这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候，所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子，用于修改Scrapy request和response。编写自己的下载器中间件编写下载器中间件，需要定义以下一个或者多个方法的python类为了演示这里的中间件的使用方法，这里创建一个项目作为学习，这...

Python之爬虫（十六） Scrapy框架中选择器的用法【代码】

Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 XPath选择器常用的路径表达式，这里列举了一些常用的，XPath的功能非常强大，内含超过100个的内建函数。下面为常用的方法nodeName 选取此节点的所有节点 / ...

Python之爬虫（十七） Scrapy框架中Spiders用法【图】

Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. spider中初始的requesst是通过start_requests()来获取的。start_requests()获取 start_urls中的URL，并以parse以回调函数生成Request 在回调函数内分析返...

Python爬虫之Beautiful Soup的用法【代码】

1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除...

Python爬虫利器五之Selenium的用法

前言在上一节我们学习了 PhantomJS 的基本用法，归根结底它是一个没有界面的浏览器，而且运行的是 JavaScript 脚本，然而这就能写爬虫了吗？这又和Python有什么关系？说好的Python爬虫呢？库都学完了你给我看这个？客官别急，接下来我们介绍的这个工具，统统解决掉你的疑惑。简介 Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个...

Python爬虫从入门到成妖之7-----Scrapy框架中Download Middleware用法【代码】【图】

这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送 requests请求的时候以及网页将 response结果返回给 spiders的时候，所以从这里我们可以知道下载中间件是介于 Scrapy的 request/response处理的钩子，用于修改 Scrapy request和 response。编写自己的下载器中间件编写下载器中间件，需要定义以下一个或者多个方法的python类为了演示这里的中间件的使用方法，这里创建一个项目作为学...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...