首页 / XML / Python爬虫lxml解析实战

Python爬虫lxml解析实战

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬虫lxml解析实战，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1629字，纯文字阅读大概需要3分钟。

内容图文

XPath常用规则
/                            从当前节点选取直接子节点
//                           从当前节点选取子孙节点
.                            选取当前节点
..                           选取当前节点的父节点
@                          选取属性
*                           通配符，选择所有元素节点与元素名
@*                        选取所有属性
[@attrib]               选取具有给定属性的所有元素
[@attrib='value']    选取给定属性具有给定值的所有元素
[tag]                     选取所有具有指定元素的直接子节点
[tag='text']            选取所有具有指定元素并且文本内容是text节点

"""爬取豆瓣网站的信息"""
import requests
from lxml import etree

# 请求头设置
headers = {
    "User-Agentv": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36",
    "Referer": "https://movie.douban.com/",
}

url = "https://movie.douban.com/cinema/nowplaying/chongqing/"
# 发起请求
rep = requests.get(url, headers=headers)
text = rep.text
# 转换成html格式
html = etree.HTML(text)
# 找到子孙节点ul标签
ul = html.xpath("//ul[@class='lists']")[0]
# 当前ul下的所有li标签
lis = ul.xpath("./li")
movies = []
# 循环每个li标签
for li in lis:
    # 直接@li标签的属性获取值
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    region = li.xpath("@data-region")[0]
    actors = li.xpath("@data-actors")[0]
    director = li.xpath("@data-director")[0]
    liimg = li.xpath(".//img/@src")
    movie = {
        "title": title,
        "score": score,
        "region": region,
        "actors": actors,
        "director": director,
        "liimg": liimg,
    }
    movies.append(movie)
print(movies)

View Code

可参考博客链接(我就懒得写了)：http://www.cnblogs.com/zhangxinqi/p/9210211.html#_label11

内容总结

以上是互联网集市为您收集整理的Python爬虫lxml解析实战全部内容，希望文章能够帮你解决Python爬虫lxml解析实战所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/849659.html

来源：【匿名】

【上一篇】Java:使用DOM4j来实现读写XML文件中的属性和元素【下一篇】PHP和JAVA的XML-RPC中文问题解决办法

更多 ►

【Python爬虫lxml解析实战】教程文章相关的互联网学习教程文章

Python爬虫之lxml-etree和xpath的结合使用（附案例）【图】

本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用（附案例），内容很详细，希望可以帮助到大家。lxml：python 的HTML/XML的解析器官网文档：https://lxml.de/使用前，需要安装安 lxml 包功能： 1.解析HTML：使用 etree.HTML(text) 将字符串格式的 html 片段解析成 html 文档2.读取xml文件3.etree和XPath 配合使用lxml 的安装【PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【lxml】>【install】...

Python 爬虫利器三之 Xpath 语法与 lxml 库的用法【代码】

原文链接https://cuiqingcai.com/2621.html 前言前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml 用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。 lxml XPath 语法参考 w3school w3school 视频...

Python3爬虫lxml解析库安装（转载）

lxml的安装 Windows 在Windows环境下，可以先尝试利用pip安装，打开命令行窗户输入pip3 install lxml,如果没有报错，则安装成功。如果出现报错，比如缺少libxml2库等信息，可以采用wheel方式安装。转到http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载对应的wheel文件，找到本地安装python版本和系统对应的lxml版本，例如Windows64位、Python 3.7,就选择lxml-4.5.2-cp37-cp37m-win_amd64.whl版本，将其下载到本地。然后再利...

Python3爬虫lxml解析库安装（转载）

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）【代码】【图】

因为教程的demo网站糗事百科已经gg（好像是涉及用户私人信息什么的原因），所以我就只好随便找了个网站练手。前几天学习了部分lxml的用法，主要是etree，因为4.4.2版本的更新，etree现在在ElementInclude包内，直接引用是不行了，并且etree添加了新的parser，调用parse方法时要先实例化HTMLparse方法，当然我这个垃圾爬虫没有用爬取html和数据清洗两个步骤分离，而且demo么没有用多线程，导致爬200个鬼故事，几mb的txt，爬取写入时...

Python 爬虫之数据解析模块lxml基础（附：xpath和解析器介绍）

介绍：最近在学Python爬虫，在这里对数据解析模块lxml做个学习笔记。lxml、xpath及解析器介绍：lxml是Python的一个解析库，支持HTML和XML的解析，支持xpath解析方式，而且解析效率非常高。xpath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索xml文件/html文件结点关系：父节点(Parent)子节点(Children)同胞节点(Sibling)先辈节点(Ancest...

python-爬虫基础-lxml.etree(3)-Elementtree类

''' Elementtree 主要是一个包装在具有根节点的树周围的文档。它提供了一些用于序列化和一般文档处理的方法。 ''' root = etree.XML('''<?xml version="1.0"?> <!DOCTYPE root SYSTEM "test" [ <!ENTITY tasty "parsnips"> ]> <root> <a>&tasty;</a> </root>''') tree = etree.ElementTree(root) print(tree.docinfo.xml_version) print(tree.docinfo.doctype) tree.docinfo.public_id = '-//W3C//DTD XHTML 1.0 Transitional//E...

python爬虫网页解析之lxml模块

08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装：方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl #文件所在的路径 linux下安装：方法一:pip3 install lxml 方法二:yum install -y epel-release libxslt-devel libxml2-devel openssl-devel 二.模块的使用 from lxml.html imp...