首页 / PYTHON / python-在BeautifulSoup中处理印度语言

python-在BeautifulSoup中处理印度语言

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-在BeautifulSoup中处理印度语言，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1310字，纯文字阅读大概需要2分钟。

内容图文

我正尝试在NDTV网站上抓取新闻标题. This是我用作HTML源的页面.我正在使用BeautifulSoup(bs4)处理HTML代码,并且一切正常,除了在链接到的页面中遇到印地文标题时代码中断.

到目前为止,我的代码是：

import urllib2
from bs4 import BeautifulSoup

htmlUrl = "http://archives.ndtv.com/articles/2012-01.html"
FileName = "NDTV_2012_01.txt"

fptr = open(FileName, "w")
fptr.seek(0)

page = urllib2.urlopen(htmlUrl)
soup = BeautifulSoup(page, from_encoding="UTF-8")

li = soup.findAll( 'li')
for link_tag in li:
   hypref = link_tag.find('a').contents[0]
   strhyp = str(hypref)
   fptr.write(strhyp)
   fptr.write("\n")

我得到的错误是：

Traceback (most recent call last):
  File "./ScrapeTemplate.py", line 30, in <module>
  strhyp = str(hypref)
  UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: ordinal not in range(128)

即使不包含from_encoding参数,我也会遇到相同的错误.我最初将其用作fromEncoding,但是python警告我它已被弃用.

我该如何解决？从我的阅读中,我需要避免印地文标题或将其显式编码为非ASCII文本,但是我不知道该怎么做.任何帮助将不胜感激！

解决方法:

您将看到一个NavigableString实例(该实例派生自Python unicode类型)：

(Pdb) hypref.encode('utf-8')
'NDTV'
(Pdb) hypref.__class__
<class 'bs4.element.NavigableString'>
(Pdb) hypref.__class__.__bases__
(<type 'unicode'>, <class 'bs4.element.PageElement'>)

您需要使用转换为utf-8

hypref.encode('utf-8')

内容总结

以上是互联网集市为您收集整理的python-在BeautifulSoup中处理印度语言全部内容，希望文章能够帮你解决python-在BeautifulSoup中处理印度语言所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/675752.html

来源：【匿名】

【上一篇】如何将输入提供给python控制台并以编程方式验证输出？【下一篇】浅谈PHP运行Python脚本的方法

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-在BeautifulSoup中处理印度语言

python-在BeautifulSoup中处理印度语言

内容导读

内容图文

内容总结

内容备注

内容手机端

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程