首页 / PYTHON / python – BeautifulSoup中文字符编码错误

python – BeautifulSoup中文字符编码错误

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – BeautifulSoup中文字符编码错误，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2352字，纯文字阅读大概需要4分钟。

内容图文

我正在尝试识别并保存特定网站上的所有标题,并继续得到我认为编码错误.

该网站是：http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm

目前的代码是：

holder = {}  

url = urllib.urlopen('http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm').read()

soup = BeautifulSoup(url, 'lxml')

head1 = soup.find_all(['h1','h2','h3'])

print head1

holder["key"] = head1

印刷品的输出是：

[<h3>\u73af\u5883\u6c61\u67d3\u6700\u5c0f\u5316 \u8d44\u6e90\u5229\u7528\u6700\u5927\u5316</h3>, <h1>\u5929\u6d25\u6ee8\u6d77\u65b0\u533a\uff1a\u697c\u5728\u666f\u4e2d \u5382\u5728\u7eff\u4e2d</h1>, <h2></h2>]

我有理由确定那些是unicode字符,但我还没弄清楚如何说服python将它们显示为字符.

我试图在其他地方找到答案.更明确的问题是这个问题：
Python and BeautifulSoup encoding issues

建议添加

soup = BeautifulSoup.BeautifulSoup(content.decode('utf-8','ignore'))

然而,这给了我同样的错误,在评论中提到(“AttributeError：类型对象’BeautifulSoup’没有属性’BeautifulSoup’”)
删除第二个’.BeautifulSoup’导致了一个不同的错误(“RuntimeError：调用Python对象时超出了最大递归深度”).

我也试过这里建议的答案：
Chinese character encoding error with BeautifulSoup in Python?

通过分解对象的创建

html = urllib2.urlopen("http://www.515fa.com/che_1978.html")
content = html.read().decode('utf-8', 'ignore')
soup = BeautifulSoup(content)

但这也产生了递归错误.任何其他提示将是最受欢迎的.

谢谢

解决方法:

使用unicode-escape解码：

In [6]: from bs4 import BeautifulSoup

In [7]: h = """<h3>\u73af\u5883\u6c61\u67d3\u6700\u5c0f\u5316 \u8d44\u6e90\u5229\u7528\u6700\u5927\u5316</h3>, <h1>\u5929\u6d25\u6ee8\u6d77\u65b0\u533a\uff1a\u697c\u5728\u666f\u4e2d \u5382\u5728\u7eff\u4e2d</h1>, <h2></h2>"""

In [8]: soup = BeautifulSoup(h, 'lxml')

In [9]: print(soup.h3.text.decode("unicode-escape"))
环境污染最小化 资源利用最大化

如果查看源代码,您可以看到数据是utf-8编码的：

<meta http-equiv="content-language" content="utf-8" />

对于我使用bs4 4.4.1只是解码urllib返回的工作正常：

In [1]: from bs4 import BeautifulSoup

In [2]: import urllib

In [3]: url = urllib.urlopen('http://paper.people.com.cn/rmrb/html/2016-05/06/nw.D110000renmrb_20160506_2-01.htm').read()

In [4]: soup = BeautifulSoup(url.decode("utf-8"), 'lxml')

In [5]: print(soup.h3.text)
环境污染最小化 资源利用最大化

当您写入csv时,您需要将数据编码为utf-8 str：

 .decode("unicode-escape").encode("utf-8")

您可以在dict中保存数据时进行编码.

内容总结

以上是互联网集市为您收集整理的python – BeautifulSoup中文字符编码错误全部内容，希望文章能够帮你解决python – BeautifulSoup中文字符编码错误所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/787622.html

来源：【匿名】

【上一篇】python – 用于getrow的Scipy稀疏矩阵替代()【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – BeautifulSoup中文字符编码错误】教程文章相关的互联网学习教程文章

python基础之二进制与字符编码、进制转换【代码】【图】

如果想理解进制与字符编码由来可参考python编程基础之字符编码二进制与字符编码计算机只认识0和1。ASCII表来表示符号和数字。下面对应的时ASCII字符参照表其中，‘A‘ 使用了8个位（bit）才能表示出来，在计算机他们叫一个字节（byte）0 1 0 0 0 0 0 1 1024 byte = 1 kB ； 1024 kB = 1 MB ；1024 MB = 1 GB ； 1024 GB = 1 TB.二进制0，1 → ASCII → GB2312 → GB18...

python基础|字符编码【代码】

任何一个程序想要运行，必须先有硬盘加载到内存，然后由cpu去内存取只执行。运行着的应用程序的数据，必须在内存运行。python运行文件的三步，首先把python文件解释器读取到内存上，然后应用程序代码文本文件读取到内存上，最后python解释器对程序代码进行编译成计算机识别的代码。字符编码　　字符编码和文本文件有关。文字，字母，数字符号等都属于字符。常见的文本文件，记事本，word文件等。但是图片和视频不属于文本文件。　...

python 基础之字符编码和文件处理【图】

一、字符编码(1)计算机基础知识（2）python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器，打开txt.py文件，从硬盘把txt.py文件内容读到内存中 <3>python解释器解释刚刚加载到内存中的txt.py的代码(在该阶段及执行时，才会识别python的语法，执行文件内存代码，执行到name="egon",会开辟内存空间存放字符串"egon"） (3)python解释器与文本编辑的异同相同点：python解...

python入门：字符编码【代码】

字符编码字符编码：字符----编码(字符编码表)---->二进制目前内存中使用的统一是unicode，编码和解码对应了相应的字符集保证不乱码的关键：1.字符当初以什么编码存放的，就应该以什么编码解码。当存储的时候字符编码不对的时候，内存会存放错误的二进制，那么取出来的时候，无论以什么办法取，都是乱码2.在python2中解释器默认使用的编码是ASCII码，python3默认使用的是UTF-8在python文件头上插入： #coding:utf-8 修改python解释...

Python 字符编码问题【图】

出现如上错误的原因:Python默认是以ASCII作为编码方式的，如果在自己的Python源码中包含了中文（或者其他非英语系的语言），此时即使你把自己编写的Python源文件以UTF-8格式保存了，但实际上，这依然是不行的。解决办法很简单，只要在文件开头加入下面代码就行了(一定是要在文件的最开始位置)：# -*- coding: UTF-8 -*- 或#coding=utf-8原文：http://www.cnblogs.com/xiaomeikugua/p/3594271.html

python学习笔记8-9（字符编码与二进制）【代码】

字符编码python解释器在加载.py文件中的代码时，会对内容进行编码（默认ASCII）二进制举例：古时候烽火台，点火和不点火只有两种状态，传递信息太少。约定点火数1，代表1-100 点火数2，代表101-1000 点火数3，代表1001-5000 点火数4，代表5001-1000虽然有进步，但还不够精确如果引入二进制，可以精确表示任意数字符编码二进制和字母的转换ASCII（American Standard Code for Information Interchange，美国标准信息交换代...

首页 / PYTHON / python – BeautifulSoup中文字符编码错误

python – BeautifulSoup中文字符编码错误

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – BeautifulSoup中文字符编码错误】教程文章相关的互联网学习教程文章

python基础之二进制与字符编码、进制转换【代码】【图】

python基础|字符编码【代码】

python 基础之字符编码和文件处理【图】

python入门：字符编码【代码】

Python 字符编码问题【图】

python学习笔记8-9（字符编码与二进制）【代码】

笨办法学python3代码练习ex23.py 字符串字节串字符编码【代码】

【Python 学习_第3周_字符编码】金角大王培训_第三周_字符编解码_心得及网上资料连接【代码】【图】

Python之字符编码

python基础----字符编码【代码】【图】

Python数据类型和字符编码【图】

python 基础字符编码

python字符编码【代码】【图】

Python字符编码讲解【图】

Python中关于字符编码与函数的使用详解【图】

PYTHON - 相关标签

错误 - 相关标签

字符 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程