首页 / HTML5 / python – 在beautifulsoup的上下文中lxml和html5lib之间的区别

python – 在beautifulsoup的上下文中lxml和html5lib之间的区别

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在beautifulsoup的上下文中lxml和html5lib之间的区别，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含933字，纯文字阅读大概需要2分钟。

内容图文

python – 在beautifulsoup的上下文中lxml和html5lib之间的区别

在beautifulsoup的上下文中,lxml和html5lib解析器的功能有区别吗？我正在尝试学习使用BS4并使用以下代码构造 –

ret = requests.get('http://www.olivegarden.com')
soup = BeautifulSoup(ret.text, 'html5lib')
for item in soup.find_all('a'): 
    print item['href']

我开始使用lxml作为解析器,但注意到对于某些网站,即使页面中有有效链接,也永远不会输入for循环.同一页面适用于html5ib解析器.是否有任何特定类型的页面可能无法与lxml一起使用？

我在Ubuntu上使用python-lxml 2.3.2-1和libxml2 2.7.8.dfsg-5.1ubunt
和html5lib-1.0b3

编辑：我更新到lxml 3.1.2仍然看到相同的问题.在运行3.0.x的mac上,正在正确解析同一页面.有问题的网站是www.olivegarden.com

解决方法:

html5lib使用HTML规范中定义的HTML parsing algorithm,并在所有主流浏览器中实现. lxml使用libxml2的HTML解析器 – 这最终基于他们的XML解析器,并且不会对其他地方使用的无效HTML进行任何错误处理.

大多数Web开发人员只使用Web浏览器进行测试 – 标准被诅咒 – 所以如果您想获得页面作者的意图,您可能需要使用类似于当前浏览器的html5lib,

内容总结

以上是互联网集市为您收集整理的python – 在beautifulsoup的上下文中lxml和html5lib之间的区别全部内容，希望文章能够帮你解决python – 在beautifulsoup的上下文中lxml和html5lib之间的区别所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/802832.html

来源：【匿名】

【上一篇】HTML5最有可能对Java,PHP和ASP.NET等平台产生什么影响？【下一篇】html5如何获取php数据

更多 ►

【python – 在beautifulsoup的上下文中lxml和html5lib之间的区别】教程文章相关的互联网学习教程文章

html5规定元素的上下文菜单属性contextmenu

实例规定 <div> 元素的上下文菜单。上下文菜单会在用户右键点击元素时出现：<div contextmenu="mymenu"><menu type="context" id="mymenu"><menuitem label="Refresh"></menuitem><menuitem label="Twitter"></menuitem> </menu></div>浏览器支持Firefox目前只有 Firefox 支持 contextmenu 属性。定义和用法contextmenu 属性规定元素的上下文菜单。当用户右键点击元素时，会出现上下文菜单。contextmenu 属性的值是要打开的 <menu>...

html5中canvas标签中2d上下文globalCompositeOperation属性_html/css_WEB-ITnose

定义和用法 globalCompositeOperation 属性设置或返回如何将一个源（新的）图像绘制到目标（已有）的图像上。例: 1 var c=document.getElementById("myCanvas"); 2 var ctx=c.getContext("2d"); 3 4 ctx.fillStyle="red"; 5 ctx.fillRect(20,20,75,50); 6 ctx.globalCompositeOperation="source-over"; 7 ctx.fillStyle="blue"; 8 ctx.fillRect(50,50,75,50); 9 10 ctx.fillStyle="red";11 ctx...

html5中canvas标签中2d上下文globalCompositeOperation属性-MythMan【图】

定义和用法globalCompositeOperation 属性设置或返回如何将一个源（新的）图像绘制到目标（已有）的图像上。例:1 var c=document.getElementById("myCanvas");2 var ctx=c.getContext("2d");3 4 ctx.fillStyle="red";5 ctx.fillRect(20,20,75,50);6 ctx.globalCompositeOperation="source-over";7 ctx.fillStyle="blue";8 ctx.fillRect(50,50,75,50);9 10 ctx.fillStyle="red"; 11 ctx.fillRect(150,20,75,50); 12 ctx.globalComp...

Javascript-HTML5画布的2d上下文中的多个图像模式？【代码】

我在HTML5 canvas的2d上下文中呈现几种模式(每种模式具有不同的纹理)时遇到了困难. 假设我有三个独立的画布,两个在屏幕外包含不同的纹理,一个用于渲染.让这些脱机画布为A和B. 然后：var patternA = ctx.createPattern(A, "repeat-x"); ctx.fillStyle = patternA; ctx.fillRect(100,100,20,20);var patternB = ctx.createPattern(B, "repeat-y"); ctx.fillStyle = patternB; ctx.fillRect(150,100,20,20);应该有两个2020矩形,每个矩...