【python – unicodedata.normalize(form,unistr)如何工作?】教程文章相关的互联网学习教程文章

python – 为什么在PyCharm的控制台上没有显示unicode字符串?【代码】

环境:Windows 8 PyCharm 5.0 Python 2.7.9print "123" # OKprint u"123" # Show empty line on the console?我的“文件编码”已经设置为UTF-8,我也是加:"-Dconsole.encoding=UTF-8" 在文件“pycharm.exe.vmoptions”中,但仍然遇到问题.解决方法:在文件“pycharm.exe.vmoptions”中添加以下行可以解决问题:-Dfile.encoding=UTF-8 这似乎是PyCharm 5.0的一个错误……

如何在Python中替换字符串中的无效unicode字符?【代码】

据我所知,python的概念只是在字符串中只有有效字符,但在我的情况下,操作系统将在我必须处理的路径名中传递带有无效编码的字符串.所以我最终得到的字符串包含非unicode字符. 为了纠正这些问题,我需要以某种方式显示这些字符串.不幸的是我无法打印它们因为它们包含非unicode字符.是否有一种优雅的方式来以某种方式替换这些字符,至少可以了解字符串的内容? 我的想法是逐字符处理这些字符串,并检查存储的字符是否实际上是有效的unicod...

python – unicode解码错误:如何跳过无效字符【代码】

有没有办法预处理文本文件并跳过这些字符?UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte解决方法:尝试这个:str.decode('utf-8',errors='ignore')

python – 将unicode元素读入​​numpy数组【代码】

考虑一个名为“new.txt”的文本文件,其中包含以下元素:μm ?r ?λ在Python 2.7中,我可以通过键入以下内容来读取文件:>>> import codecs >>> f = codecs.open('new.txt', encoding='utf-8') >>> lines = [line.strip() for line in f2.readlines()] >>> lines [u'\u03bcm', u'\u2202r', u'\u2206\u03bb'] >>> print lines[0] μm到现在为止还挺好.我可以通过以下方式轻松将此列表转换为numpy数组:>>> import numpy as np >>> arr...

python – Gensim:TypeError:doc2bow期望输入的unicode标记数组,而不是单个字符串【代码】

我从一些python任务开始,我在使用gensim时遇到了问题.我试图从我的磁盘加载文件并处理它们(拆分它们和小写()它们) 我的代码如下:dictionary_arr=[] for file_path in glob.glob(os.path.join(path, '*.txt')):with open (file_path, "r") as myfile:text=myfile.read()for words in text.lower().split():dictionary_arr.append(words) dictionary = corpora.Dictionary(dictionary_arr)列表(dictionary_arr)包含所有文件中所有单...

python – unicodedata.normalize(form,unistr)如何工作?【代码】

关于API doc,http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize.它说Return the normal form form for the Unicode string unistr. Valid values for form are ‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’.` 文档相当模糊,有人可以用一些例子解释有效值吗?解决方法:我发现文档非常清楚,但这里有一些代码示例:from unicodedata import normalizeprint '%r' % normalize('NFD', u'\u00C7') # decompose: c...

python – 使用cyryllic时的UnicodeDecodeError【代码】

我有一个仅包含的模块(这是唯一的例子.问题在于更大的模块):# -*- coding: utf-8 -*- "януари"执行时,我得到:File "C:\Program Files\JetBrains\PyCharm 107.130\helpers\pydev\pydevd.py", line 1184, in <module>debugger.run(setup['file'], None, None)File "C:\Program Files\JetBrains\PyCharm 107.130\helpers\pydev\pydevd.py", line 947, in runline = stream.readline() #Should not raise an exception even if...

python – 使用带有unicode字符的str.center()时遇到麻烦【代码】

我在python 2.7中观察了str对象的中心方法的这种奇怪行为 – >>> print '-'.center(5,'.') # '-' is the minus or hyphen key on the keyboard. ..-.. # correctly centered >>> print '─'.center(5, '.') # '─' is NOT the minus or hyphen key on the keyboard. .─. # incorrectly centered这是中心方法实现中的错误还是与unicode字符的使用有关?...

python2.7 – 从带有unicode的.txt文件中读取字典【代码】

我不久前就读了一门汉语研究课程,我觉得用python写一个flashcard程序对我来说是一个很好的练习.我将闪存卡列表存储在.txt文件中的字典中,到目前为止没有问题.当我尝试将以utf-8编码的文件加载到我的程序中时,真正的问题就出现了.我的代码的摘录:import codecsf = codecs.open(('list.txt'),'r','utf-8') quiz_list = eval(f.read())quizy = str(quiz_list).encode('utf-8')print quizy现在,如果例如list.txt包含:{'character1':'...

读取Unicode文件 – Python3.2【代码】

我正在尝试使用Python3.2读取一些文件,其中一些文件可能包含unicode,而其他文件则不包含. 当我尝试:file = open(item_path + item, encoding="utf-8") for line in file:print (repr(line))我收到错误:UnicodeEncodeError: 'ascii' codec can't encode characters in position 13-16: ordinal not in range(128)我在这里遵循文档:http://docs.python.org/release/3.0.1/howto/unicode.html 为什么Python会在此代码中的任何位置尝...

UnicodeDecodeError,ascii处理python中的Snowball词干算法【代码】

我在将常规文件读入我已编写的程序时遇到一些麻烦.我目前遇到的问题是pdf基于某种突变的utf-8,其中包括一个BOM,它会在我的整个操作中引发一个问题.在我的应用程序中,我正在使用需要ascii输入的Snowball词干算法.有许多主题涉及到为utf-8解决错误,但是没有一个涉及将它们发送到Snowball算法,或者考虑ascii是我想要的最终结果.目前我使用的文件是使用标准ANSI编码的记事本文件.我得到的具体错误信息是这样的:File "C:\Users\svictor...

python – 为什么我不能规范化这个随机的unicode字符串?【代码】

我需要在unicode字符串上评估levenshtein编辑距离,这意味着需要对包含相同内容的两个字符串进行规范化,以避免偏向编辑距离. 以下是我为测试生成随机unicode字符串的方法:def random_unicode(length=10):ru = lambda: unichr(random.randint(0, 0x10ffff))return ''.join([ru() for _ in xrange(length)])这是一个失败的简单测试用例:import unicodedata uni = random_unicode() unicodedata.normalize(uni, 'NFD')这是错误:Unic...

python – facebook-graph sdk无法处理unicode字符【代码】

发布日语消息时,facebook-python sdk可以处理吗?我可以毫无问题地发布英文信息,但是当我尝试发布日语时graph.put_object("me", "feed", message=u'あなたが大好きだよ')我有下面的错误.我该怎么办?Traceback (most recent call last):File "/base/data/home/apps/s~posttofacebook123456/1.365133296513228525/kay/app.py", line 371, in get_response response = view_func(request, **values)File "/base/data/home/apps/s~pos...

python – pyodbc删除unicode字符串【代码】

我正在使用pyodbc连接sqlserver而下面是我的连接字符串..一切正常,但结果作为unicode字符串返回..我在连接字符串中有CHARSET = UTF8,但仍然以unicode字符串形式返回? 有什么方法可以使用连接参数本身来限制它吗? 我不想调用额外的函数将我的unicode转换为普通字符串.import pyodbc as pconnstr= 'DRIVER={SQL Server};SERVER=USERNAME\SQLEXPRESS;DATABASE=TEST;Trusted_Connection=yes;unicode_results=True;CHARSET=UTF8' conn...

python – 使用xhtml2pdf将unicode模板转换为pdf的麻烦【代码】

我在我的html页面中使用了unicode,它在html页面中正确显示.但是在使用xhtml2pdf将其转换为html时,它会在unicodes中生成黑色实心方框.是否有UTF-8设置以外的unicode设置.我不认为它的unicode问题.# convert HTML to PDF pisaStatus = pisa.CreatePDF(StringIO(sourceHtml.encode('utf-8')), dest=resultFile)完整的py代码:# -*- coding: utf-8 -*-from xhtml2pdf import pisa from StringIO import StringIOsource...