首页 / XML / Python爬虫lxml解析实战
Python爬虫lxml解析实战
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python爬虫lxml解析实战,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1629字,纯文字阅读大概需要3分钟。
内容图文
![Python爬虫lxml解析实战](/upload/InfoBanner/zyjiaocheng/850/76aeb01d80e9431fa2df35879768a010.jpg)
XPath常用规则 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 * 通配符,选择所有元素节点与元素名 @* 选取所有属性 [@attrib] 选取具有给定属性的所有元素 [@attrib='value'] 选取给定属性具有给定值的所有元素 [tag] 选取所有具有指定元素的直接子节点 [tag='text'] 选取所有具有指定元素并且文本内容是text节点
![Python爬虫lxml解析实战 - 文章图片](/upload/getfiles/0001/2021/5/6/20210506031435579.jpg)
![Python爬虫lxml解析实战 - 文章图片](/upload/getfiles/0001/2021/5/6/20210506031435697.jpg)
"""爬取豆瓣网站的信息""" import requests from lxml import etree # 请求头设置 headers = { "User-Agentv": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36", "Referer": "https://movie.douban.com/", } url = "https://movie.douban.com/cinema/nowplaying/chongqing/" # 发起请求 rep = requests.get(url, headers=headers) text = rep.text # 转换成html格式 html = etree.HTML(text) # 找到子孙节点ul标签 ul = html.xpath("//ul[@class='lists']")[0] # 当前ul下的所有li标签 lis = ul.xpath("./li") movies = [] # 循环每个li标签 for li in lis: # 直接@li标签的属性获取值 title = li.xpath("@data-title")[0] score = li.xpath("@data-score")[0] region = li.xpath("@data-region")[0] actors = li.xpath("@data-actors")[0] director = li.xpath("@data-director")[0] liimg = li.xpath(".//img/@src") movie = { "title": title, "score": score, "region": region, "actors": actors, "director": director, "liimg": liimg, } movies.append(movie) print(movies)View Code
可参考博客链接(我就懒得写了):http://www.cnblogs.com/zhangxinqi/p/9210211.html#_label11
内容总结
以上是互联网集市为您收集整理的Python爬虫lxml解析实战全部内容,希望文章能够帮你解决Python爬虫lxml解析实战所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。