python – 解析lxml中的html主体片段
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 解析lxml中的html主体片段,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1784字,纯文字阅读大概需要3分钟。
内容图文
![python – 解析lxml中的html主体片段](/upload/InfoBanner/zyjiaocheng/732/827d6a1d3d5d4e699e61a17ff9fa810a.jpg)
我正在尝试解析html的片段:
<body><h1>title</h1><img src=""></body>
我使用lxml.html.fromstring.它让我疯狂,因为它不断剥离< body>我的片段的标签:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
我也试过了document_fromstring,fragment_fromstring,clean_html和page_structure = False等……没什么用.
我需要使用lxml,因为我将html片段传递给PyQuery.
我只是希望lxml不要弄乱我的html片段.有可能吗?
解决方法:
.fragment_fromstring()删除< html>标签也是;基本上,每当你没有HTML文档(带有< html>顶级元素和/或doctype)时,.fromstring()会回退到.fragment_fromstring(),并且该方法会同时删除< html>和< body>标签,永远.
解决方法是告诉.fragment_fromstring()给你一个< body>父标签:
>>> lxml.html.fragment_fromstring('<body><h1>a</h1></body>', create_parent='body')
<Element body at 0x10d06fbf0>
这不保留原始< body>上的任何属性.标签.
另一种解决方法是使用.document_fromstring()方法,该方法将文档包装在< html>中.标签,然后您可以再次删除:
>>> lxml.html.document_fromstring('<body><h1>a</h1></body>')[0]
<Element body at 0x10d06fcb0>
这确实保留了< body>的属性:
>>> lxml.html.document_fromstring('<body class="foo"><h1>a</h1></body>')[0].attrib
{'class': 'foo'}
在第一个示例中使用.document_fromstring()函数可以得到:
>>> body = lxml.html.document_fromstring('<body><h1>title</h1><img src=""></body>')[0]
>>> lxml.html.tostring(body)
'<body><h1>title</h1><img src=""></body>'
如果您只想在没有HTML标记的情况下执行此操作,请执行lxml.html.fromstring()所做的操作并测试完整文档:
htmltest = lxml.html._looks_like_full_html_bytes if isinstance(inputtext, str) else lxml.html._looks_like_full_html_unicode
if htmltest(inputtext):
tree = lxml.html.fromstring(inputtext)
else:
tree = lxml.html.document_fromstring(inputtext)[0]
内容总结
以上是互联网集市为您收集整理的python – 解析lxml中的html主体片段全部内容,希望文章能够帮你解决python – 解析lxml中的html主体片段所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。