首页 / PYTHON / python – 结合天城文字符

python – 结合天城文字符

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 结合天城文字符，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1860字，纯文字阅读大概需要3分钟。

内容图文

我有类似的东西

a = "?????? ???? ??? ??"

我希望实现类似的目标

a[0] = ??
a[1] = ???
a[3] = ?

但由于?占用4个字节,而??占用8个字节,我无法直接进行.
那么可以做些什么呢？在Python中.

解决方法:

将文本分成字形簇的算法在Unicode Annex 29第3.1节中给出.我不打算在这里为你实现完整的算法,但是我将大致向你展示如何处理梵文的情况,然后你可以自己阅读附件,看看你还需要实现什么.

unicodedata module包含检测字形集群所需的信息.

>>> import unicodedata
>>> a = "?????? ???? ??? ??"
>>> [unicodedata.name(c) for c in a]
['DEVANAGARI LETTER BA', 'DEVANAGARI VOWEL SIGN I', 'DEVANAGARI LETTER KA', 
 'DEVANAGARI SIGN VIRAMA', 'DEVANAGARI LETTER RA', 'DEVANAGARI LETTER MA',
 'SPACE', 'DEVANAGARI LETTER MA', 'DEVANAGARI VOWEL SIGN E',
 'DEVANAGARI LETTER RA', 'DEVANAGARI VOWEL SIGN O', 'SPACE',
 'DEVANAGARI LETTER NA', 'DEVANAGARI VOWEL SIGN AA', 'DEVANAGARI LETTER MA',
 'SPACE', 'DEVANAGARI LETTER HA', 'DEVANAGARI VOWEL SIGN O']

在梵文中,每个字形簇包括一个首字母,可选的变形对(元音杀手)和字母,以及一个可选的元音符号.在正则表达式中,将是LETTER(VIRAMA LETTER)* VOWEL？您可以通过查找每个代码点的Unicode category来确定哪个是哪个：

>>> [unicodedata.category(c) for c in a]
['Lo', 'Mc', 'Lo', 'Mn', 'Lo', 'Lo', 'Zs', 'Lo', 'Mn', 'Lo', 'Mc', 'Zs',
 'Lo', 'Mc', 'Lo', 'Zs', 'Lo', 'Mc']

字母是类别Lo(字母,其他),元音符号是类别Mc(标记,间距组合),virama是类别Mn(标记,非间距),空格是类别Z(分隔符,空格).

所以这是分离字形集群的粗略方法：

def splitclusters(s):
    """Generate the grapheme clusters for the string s. (Not the full
    Unicode text segmentation algorithm, but probably good enough for
    Devanagari.)

    """
    virama = u'\N{DEVANAGARI SIGN VIRAMA}'
    cluster = u''
    last = None
    for c in s:
        cat = unicodedata.category(c)[0]
        if cat == 'M' or cat == 'L' and last == virama:
            cluster += c
        else:
            if cluster:
                yield cluster
            cluster = c
        last = c
    if cluster:
        yield cluster

>>> list(splitclusters(a))
['??', '???', '?', ' ', '??', '??', ' ', '??', '?', ' ', '??']

内容总结

以上是互联网集市为您收集整理的python – 结合天城文字符全部内容，希望文章能够帮你解决python – 结合天城文字符所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/707555.html

来源：【匿名】

【上一篇】python – 花括号是什么意思？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 结合天城文字符】教程文章相关的互联网学习教程文章

Python字符串笔录

python字符串操作实方法，包括了几乎所有常用的python字符串操作，如字符串的替换、删除、截取、复制、连接、比较、查找、分割等1、去空格及特殊符号>>> s = ‘123 ‘>>> s.strip() # 去除所有空格‘123‘>>> s1 = ‘ 123 ‘>>> s1.rstrip() # 去除左边的空格‘ 123‘>>> s1.rstrip() # 去除右边的空格‘ 123‘ 2、连接字符串，‘+‘ 加号 >>> s1 = ‘aaa‘>>> s2 = ‘bbb‘>>> print(s1+s2)aaabbb3、查找字符 find>>> s1 = ‘...

python字符串内置函数【代码】

1、字符串定义：它是一个有序的字符的集合，用于存储和表示基本的文本信息，‘’或“”或‘’‘ ’‘’中间包含的内容称之为字符串特性：1.只能存放一个值2.不可变3.按照从左到右的顺序定义字符集合，下标从0开始顺序访问，有序补充：　　1.字符串的单引号和双引号都无法取消特殊字符的含义，如果想让引号内所有字符均取消特殊意义，在引号前面加r，如name＝r‘l\thf‘　　2.unicode字符串与r连用必需在r前面，如name＝ur‘l\thf‘...

4-Python数据类型之元组-字符串【代码】

目录1 元组概念1.1 元祖的特点1.2 元组的定义1.3 元组的访问1.4 元组的查询2 命名元组3 字符串3.1 字符串的基本操作3.1.1 字符串的访问3.1.2 字符串的拼接3.2 字符串分割3.3 字符串大小写3.4 字符串排版3.5 字符串修改3.6 字符串查找3.7 字符串判断3.8 字符串格式化3.8.1 C语言格式化3.8.2 format格式化3.8.3 对齐3.8.9 小数点与进制4 切片4.1 切片赋值1 元组概念????????元组（类型为 tuple）和列表十分相似,但是元组和字符串一样...

Windows下Python字符串编码问题【代码】

Python语言实际上有三种字符串，通常意义的字符串(str)，Unicode字符串(unicode)和抽象类basestring，其中basestring不可实例化。在Windows系统下的CPython解释器输入代码：>>> st1 = ‘中文‘>>> st1 ‘\xd6\xd0\xce\xc4‘>>> type(st1) <type ‘str‘> >>> st2 = st1.decode(‘gbk‘) >>> st2 u‘\u4e2d\u6587‘>>> type(st2) <type ‘unicode‘> >>> st3 = st2.encode(‘utf-8‘) >>> st3 ‘\xe4\xb8\xad\xe6\x96\x87‘>>> ty...

python字符串的含义

#!/usr/bin/python3name="my name is xiAngXiao"name2="alex"name3="my {name} is xiangxiao,and my {yeae} is"#print(name.capitalize())#将首字母都大写#print(name.center(50,"-"))#name放中间，两边加上-符号#print(name2.endswith(ex))#判断name2是否以ex结尾#print(name.expandtabs(tabsize=50))#将tab键转换成多少个空格#print(name.find("y"))#返回y的位置#print(name[name.find("y"):9])#从y的位置到9之前的所有字符#p...

(一)1-5Python数字和字符串

作业一、数字数据类型用于存储数值。它们是不可变数据类型。　　a = 3.0　　b = 2.5　　c = 2.4Python支持不同的数值类型　　1、init（有符号整数） - 它们通常被称为整数或整数。它们是没有小数点的正或负整数。　　2、float（浮点实数值） - 也称为浮点数，它们表示实数，并用小数点写整数和小数部分。数字类型转换Python可将包含混合类型的表达式内部的数字转换成用于评估求值的常用类型。有时需要从一个类型到另一个类型执行...

Python基础（数字,字符串方法）【代码】

数字:1#二进制转十进制2 a=‘100‘3 v=int(a,base=2) 4print(v)进制转换1#当前数字的二进制至少有多少位2 b=2 3 v2=b.bit_length() 4print(v2)数值二进制表示位数字符串:1#首字母大写2 a="kelvin"3 v=a.capitalize() 4print(v)首字母大写1#终极无敌‘大写‘变‘小写‘---->casefold2 b="KELVIN"3 v1=b.casefold() 4 v2=b.lower() 5print(v1) 6print(v2)大写转小写1#居中显示字符串2 c="kelvin"3 v3=c.center(50,"-") #第二个参数不...

python中时间戳，datetime 和时间字符串之间得转换【代码】

# datetime时间转为字符串def Changestr(datetime1): str1 = datetime1.strftime(‘%Y-%m-%d %H:%M:%S‘) return str1# 字符串时间转为时间戳def Changetime(str1): Unixtime = time.mktime(time.strptime(str1, ‘%Y-%m-%d %H:%M:%S‘)) return Unixtime# datetime时间转为时间戳def Changestamp(dt1): Unixtime = time.mktime(time.strptime(dt1.strftime(‘%Y-%m-%d %H:%M:%S‘), ‘%Y-%m-%d %H:%M:%S‘)) re...

python 字符串匹配问题【代码】

想匹配html = <div ><a href="javascript:void(0);" onclick="_gaq.push([‘_trackEvent‘,‘function‘, ‘onclick‘, ‘blog_articles_shangyipian‘]);location.href=‘/u012582664/article/details/56845037‘;"><span><i ></i></span><em>安装最新版python</em></a></div><div ><a href="javascript:void(0);" onclick="_gaq.push([‘_trackEvent‘,‘function‘, ‘onclick‘, ‘blog_articles_xiayipian‘]);location.href=...

python的字符串内建函数【代码】

python的字符串内建函数字符串方法是从python1.6到2.0慢慢加进来的——它们也被加到了Jython中。这些方法实现了string模块的大部分方法，如下表所示列出了目前字符串内建支持的方法，所有的方法都包含了对Unicode的支持，有一些甚至是专门用于Unicode的。方法描述 1 string.capitalize() #把字符串的第一个字符大写 2 string.center(width) #返回一个原字符串居中,并使用空格填充至长度 width 的新字符串 3 string.count(str, b...

python字符串format

#!/usr/bin/env pythonimport multiprocessingimport time# print "The time is {0}".format(time.ctime())# print time.ctime()# print "The time is {0}".format# print ‘this is {}‘.format(‘pangf‘)# print ‘that is {0},{1}‘.format(‘hello‘,‘world‘)# print ‘that is {1},{0},{2}‘.format(‘name‘,‘fdf‘,‘000‘)# print time.ctime()# print ‘that is {name}‘.format(name=‘pdbbb‘)def worker(interv):n...

Python - bytes与字符串的相互转化【代码】

直接上代码 1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3 4""" 5__title__ = 6__Time__ = 2020/2/21 15:567 8""" 9# bytes转字符串方式一10 b = b‘\xe9\x80\x86\xe7\x81\xab‘11 string = str(b, ‘utf-8‘) 12print(string) 1314# bytes转字符串方式二15 b = b‘\xe9\x80\x86\xe7\x81\xab‘16 string = b.decode() # 第一参数默认utf8，第二参数默认strict17print(string) 1819# bytes转字符串方式三20 b = b‘\xe9\x...

python基础1-字符串【代码】

数字，字符串，列表，布尔，元组，字典，集合（小知识点）变量名的命名规则？ #1. 变量名只能是字母、数字或下划线的任意组合#2. 变量名的第一个字符不能是数字#3. 关键字不能声明为变量名定义的方式：驼峰式：AgeOldboy=53下划线：age_oldboy=53常量：一般是用大写字母：AGE_OF_OLDBOY=54执行过程（重点！！！）python3 C:\test.py1、先启动python3.exe2、把C:\test.py从硬盘读入内存3、解释执行文件内容（识别python语法...

Python3 字符编码【代码】

编码字符串是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。由于计算机...

Python统计字符出现次数(Counter包)以及txt文件写入【代码】【图】

# -*- coding: utf-8 -*- #spyder (python 3.7)1. 统计字符(可以在jieba分词之后使用)from collections import Counter from operator import itemgetter# txt_list可以写成函数参数进行导入 txt_list = [‘千古‘,‘人间‘,‘人间‘,‘龙‘,‘龙‘,‘龙‘,‘哈哈哈‘,‘人才‘,‘千古‘,‘千古‘] c = Counter() for x in txt_list:if len(x) >= 1:if x == ‘\r\n‘or x == ‘\n‘or x == ‘‘:continueelse:c[x] += 1 print(‘常...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 结合天城文字符

python – 结合天城文字符

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 结合天城文字符】教程文章相关的互联网学习教程文章

Python字符串笔录

python字符串内置函数【代码】

4-Python数据类型之元组-字符串【代码】

Windows下Python字符串编码问题【代码】

python字符串的含义

(一)1-5Python数字和字符串

Python基础（数字,字符串方法）【代码】

python中时间戳，datetime 和时间字符串之间得转换【代码】

python 字符串匹配问题【代码】

python的字符串内建函数【代码】

python字符串format

Python - bytes与字符串的相互转化【代码】

python基础1-字符串【代码】

Python3 字符编码【代码】

Python统计字符出现次数(Counter包)以及txt文件写入【代码】【图】

PYTHON - 相关标签

字符 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程