首页 / PYTHON / 【python】字符串编码问题
【python】字符串编码问题
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了【python】字符串编码问题,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1886字,纯文字阅读大概需要3分钟。
内容图文
参考:http://blog.csdn.net/tingsking18/article/details/4033645
python内部的字符串是以unicode来编码
decode函数用来将其他编码解码为unicode
encode函数将unicode编码为指定的编码类型,例如gbk,utf-8
# -*- coding: utf-8 -*- """ Created on Wed Jan 15 15:20:59 2014 @author: hp """ import urllib2 import re import time import jieba url="http://blog.sina.com.cn/s/blog_608e1afd0102e5ym.html"def geturl(url): html=urllib2.urlopen(url).read() html=unicode(html,‘utf-8‘) word=re.findall(ur"[\u4e00-\u9fa5]+",html) s=""for w in word: s+=w return s #return web contentdef separate_word(s): seg_list=jieba.cut(s,cut_all=False) fenci="/ ".join(seg_list) # print ‘get web-->‘,s # print ‘div result-》‘,fenci # print "fenci[1]-->",fenci[1] word_list=[] word_tmp=""#word_tmp.decode(‘utf-8‘)for i in range(len(fenci)): if fenci[i]!="/": word_tmp+=fenci[i] else: i+=1 word_tmp.decode(‘utf-8‘,‘ignore‘) word_list.append(word_tmp) word_tmp=""#word_list=seg_list.split("/ ")# print "word_list-->",word_listreturn word_list def count_word(word_list): word_list_group=[] word_num=[] dic={} for i in range(len(word_list)): w_tmp=word_list[i] signal=0 for j in range(len(word_list_group)): if word_list_group[j]==w_tmp: signal=1 if signal==0: word_list_group.append(unicode(w_tmp.encode(‘utf-8‘),‘utf-8‘)) for i in range(len(word_list_group)): num=0 for j in range(len(word_list)): if word_list_group[i]==word_list[j]: num+=1 word_num.append(num) for i in range(len(word_list_group)): dic[word_list_group[i].encode(‘gbk‘)]=word_num[i] # for i in range(len(word_list_group)): # print "word_list_group-->",word_list_group[i].encode(‘gbk‘),"word_num-->",word_num[i]return dic # return word_list_group,word_num contant=geturl(url) word=separate_word(contant) result=count_word(word) for key in result.keys(): print key.encode(‘gbk‘),"--->",result[key] #print result time.sleep(10)
原文:http://www.cnblogs.com/colipso/p/3522821.html
内容总结
以上是互联网集市为您收集整理的【python】字符串编码问题全部内容,希望文章能够帮你解决【python】字符串编码问题所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。