【Python2.7中文字符编码,使用Unicode时,选择什么编码格式?】教程文章相关的互联网学习教程文章

Python 2.5.2是否针对lower()和upper()遵循Unicode?

我正在制作一个Google AppEngine应用程序. Python 2.5.2运行时环境是否遵循Unicode标准? (例如,unicode对象上的lower()和upper()方法.)解决方法:是的,没有. 有关示例,请参见此处讨论的代码:How can I convert Unicode to uppercase to print it? 在这里查看正式的,写得很好的文档: http://www.cmlenz.net/archives/2008/07/the-truth-about-unicode-in-python

正则表达式的Python和Unicode块【代码】

来自Perl,我可以执行以下操作来测试特定unicode块中字符串的成员资格:# test if string has any katakana script characters my $japanese = "カタカナ"; if ($japanese =~ /\p{InKatakana}/) {print "string has katakana" }我已经读过Python不支持unicode块(true?)-那么手动隐式实现的最佳方法是什么?例如,{InKatakana}的上述unicode块范围应为U 30A0…U 30FF.如何在Python中测试unicode范围?还有其他推荐的解决方案吗? 我不...

在Python中定义Unicode变量【代码】

最近,我一直在阅读有关Python源代码编码的信息,尤其是PEP 263和PEP 3120. 我有以下代码:# coding:utf-8s = 'abc?′??' ? = 'My name is' ? = '??˙????????????' print('s =', s) print('? =', ?, '? =', ?)这段代码在Python3上工作正常,但在Python2.7中导致SyntaxError.我确实知道这可能与源代码编码无关.因此,我想知道Python2中是否有一种支持Unicode变量名称的方法. 总之,我也很难弄清楚PEP到底要解决什么实际问题,以及如何(以...

python-ImportError numpy / core / multiarray.so:未定义符号:PyUnicodeUCS2_AsASCIIString【代码】

当我运行django项目时,遇到一个奇怪的问题,如下所示:ImportError: /usr/local/lib/python2.7/site-packages/numpy/core/multiarray.so: undefined symbol: PyUnicodeUCS2_AsASCIIString如果我以开发人员模式运行此项目(python manage.py runserver 0.0.0.0:8000),则不会发生.但是,当我在apache中部署此项目时,就会出现此问题. 在这个项目中,我使用nltk包和mongodb,而numpy是一个依赖项. 我的操作系统是CentOS 6.3,我将python从2....

python-在基于Debian的系统上如何找到字体具有字形的Unicode代码点?【代码】

从基于Debian的系统上的脚本语言(例如Python或Ruby),我想找到以下其中一种: >特定字体具有以下字形的所有Unicode代码点>所有具有特定Unicode代码点字形的字体 (显然,1或2可以从另一个派生,所以更简单的方法就可以了.)我过去通过运行以下操作来完成此操作:fc-list : file charset…并基于this code from fontconfig解析每行末尾的输出但是在我看来,应该有一种更简单的方法来执行此操作. (我不能完全确定这是此问题的正确StackExch...

在python mkdtemp中处理unicode用户名【代码】

我被http://bugs.python.org/issue1681974咬了-从那里引用:mkdtemp fails on Windows if Windows user name has any non-ASCII characters, like or , in it. mkdtemp throws an encoding error. This seems to be because the default temp dir in Windows is "c:\documents and settings\<user name>\local settings\temp"使用的OP的解决方法是:try: # workaround for http://bugs.python.org/issue1681974return tempfile.mk...

在Unicode文本文件中接收App Engine中的电子邮件附件Python错误【代码】

我有一些代码来解析电子邮件并找到附件,然后将它们作为db.BlobProperties存储到数据存储区中(稍后可能会将其更改为Blobstore).问题是,当我发送UTF8编码的文本文件时,它会生成错误. 代码基本上保存文件并返回一个转换为字符串然后存储在父电子邮件实体中的密钥.如您所见,我解码文件然后将其存储为blob.我发送了很多附件,这段代码适用于除Unicode编码的文本之外的所有内容.有一个更好的方法吗?我该怎么做才能处理Unicode文本附件? ...

Python3 UnicodeDecodeError【代码】

我在使用Python 3的服务器上运行了Django 1.8应用程序,在记录和打印带有特殊字符的字符串时,我得到了UnicodeDecodeError. >:python –version python 3.4.3 例如,如果我尝试在shell中运行一个愚蠢的方法:def print_test():print('Test: èè') # any 'special char' like ? ? é ?...我得到一个堆栈跟踪:>>> print_test() Traceback (most recent call last):File "<console>", line 1, in <module>File "/home/sailingadmin/sai...

python – UnicodeDecodeError:’ascii’编解码器无法解码位置47的字节0x92:序号不在范围内(128)【代码】

我试图使用Python在StringIO对象中写入数据,然后最终使用psycopg2的copy_from()函数将这些数据加载到postgres数据库中. 首先,当我这样做时,copy_from()抛出一个错误:ERROR:编码“UTF8”的无效字节序列:0xc92所以我遵循了this question. 我发现我的Postgres数据库有UTF8编码. 我正在编写数据的文件/ StringIO对象显示其编码如下:setgid非ISO扩展ASCII英文文本,带有很长的行,带有CRLF行终止符 我试图将我写入中间文件/ StringIO对...

Python:UnicodeEncodeError:’latin-1’编解码器不能编码字符【代码】

我正处于一个我打电话给api的场景,根据api的结果我为api中的每条记录调用数据库.我的api调用返回字符串,当我通过api为数据库调用返回的项时,对于某些元素,我得到以下错误.Traceback (most recent call last):File "TopLevelCategories.py", line 267, in <module>cursor.execute(categoryQuery, {'title': startCategory});File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/cursors.py", line 158, in executequery ...

Python unicode popen或Popen错误读取unicode【代码】

我有一个生成以下输出的程序:┌───────────────────────┐│10 day weather forecast│└───────────────────────┘ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁ Tonight Sep 27 Clear 54 0 % Tue Sep 28 Sunny 85/61 0 % Wed Sep 29 Sunny ...

从Python字符串中删除零宽度空间unicode字符【代码】

我在Python中有一个字符串,如下所示:u'\u200cHealth & Fitness'我怎么能删除\u200c部分来自字符串?解决方法:您可以将其编码为ascii并忽略错误:u'\u200cHealth & Fitness'.encode('ascii', 'ignore')输出:'Health & Fitness'

Python撤消Unicode【代码】

假设我有以下两个变量:bob1 = u'bob\xf0\xa4\xad\xa2'bob2 = 'bob\xf0\xa4\xad\xa2'如何将bob1的值作为bob2的值?也就是说,如何展开unicode格式,但保留转义的十六进制值? 如果我这样做:bob1.encode('utf8') 'bob\xc3\xb0\xc2\xa4\xc2\xad\xc2\xa2'那是不对的… 救命!解决方法:U 0000和U 00FF之间的代码点映射到ISO 8859-1或Latin 1编码中的相同字节值.>>> u'bob\xf0\xa4\xad\xa2'.encode('latin-1') 'bob\xf0\xa4\xad\xa2'

python – **之后的create()参数必须是映射,而不是unicode【代码】

我正在尝试使用以下序列化程序进行嵌套写入 – class UserProfileSerializer(serializers.ModelSerializer):class Meta:model = UserProfilefields = ('company', 'is_admin', 'last_modified', 'uuid')class UserSerializer(serializers.ModelSerializer):profile = UserProfileSerializer()class Meta:model = Userfields = ('url', 'username', 'email', 'profile')def create(self, validated_data):profile_data = validated_...

有关python中字符的unicode表信息【代码】

有没有办法在python中获取给定字符的技术信息,就像在Unicode表中显示一样? (cf.https://unicode-table.com/en/) 例:字母“?” >名称>拉丁语大写字母E与双重坟墓> Unicode编号> U 0204> HTML代码> ?> Bloc> Latin Extended-B>小写> ? 我真正需要的是获取任何Unicode编号(如此处为U 0204)相应的名称(拉丁大写字母E和双重坟墓)和小写版本(此处为“?”). 大致:input =一个Unicode编号输出=相应的信息 我能找到的最接近的东西是fontT...