首页 / PYTHON / python – nltk自定义标记生成器和标记器

python – nltk自定义标记生成器和标记器

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – nltk自定义标记生成器和标记器，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1621字，纯文字阅读大概需要3分钟。

内容图文

这是我的要求.我想以一种允许我实现以下内容的方式标记和标记段落.

>应在段落中标识日期和时间,并将其标记为日期和时间
>应识别段落中的已知短语并将其标记为CUSTOM
>应该通过默认的nltk的word_tokenize和pos_tag函数来标记其他内容应该被标记化吗？

例如,跟随sentense

"They all like to go there on 5th November 2010, but I am not interested."

如果自定义短语是“我不感兴趣”,则应按如下方式标记和标记化.

[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'), 
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','), 
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]

任何建议都会有用.

解决方法:

正确的答案是编译以您想要的方式标记的大型数据集,然后在其上训练机器学习的块.如果这太耗费时间,那么简单的方法就是运行POS标记器并使用正则表达式对其输出进行后处理.获得最长的比赛是这里最难的部分：

s = "They all like to go there on 5th November 2010, but I am not interested."

DATE = re.compile(r'^[1-9][0-9]?(th|st|rd)? (January|...)( [12][0-9][0-9][0-9])?$')

def custom_tagger(sentence):
    tagged = pos_tag(word_tokenize(sentence))
    phrase = []
    date_found = False

    i = 0
    while i < len(tagged):
        (w,t) = tagged[i]
        phrase.append(w)
        in_date = DATE.match(' '.join(phrase))
        date_found |= bool(in_date)
        if date_found and not in_date:          # end of date found
            yield (' '.join(phrase[:-1]), 'DATE')
            phrase = []
            date_found = False
        elif date_found and i == len(tagged)-1:    # end of date found
            yield (' '.join(phrase), 'DATE')
            return
        else:
            i += 1
            if not in_date:
                yield (w,t)
                phrase = []

Todo：扩展DATE re,插入代码来搜索CUSTOM短语,通过匹配POS标签和令牌使其变得更复杂,并决定第5个单独应该算作日期. (可能不是,所以过滤掉只包含序数的长度为1的日期.)

内容总结

以上是互联网集市为您收集整理的python – nltk自定义标记生成器和标记器全部内容，希望文章能够帮你解决python – nltk自定义标记生成器和标记器所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/750686.html

来源：【匿名】

【上一篇】python – Django / Celery找不到importlib 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – nltk自定义标记生成器和标记器】教程文章相关的互联网学习教程文章

Python之旅（五）迭代器和生成器【代码】

迭代器协议迭代定义：迭代是重复反馈过程的活动，其目的通常是为了逼近所需目标或结果。每一次对过程的重复称为一次“迭代”，而每一次迭代得到的结果会作为下一次迭代的初始值。 1迭代器协议：对象必须提供一个__next__() 方法，执行该方法要么返回迭代中的下一项，要么就引起一个StopIteration异常，以终止迭代（只能往前，不能退后）2可迭代对象（迭代器）：实现了迭代器协议的对象（如何实现迭代器协议，在对象内部定义__iter_...

Python全栈之路8--迭代器(iter)和生成器(yield)【代码】【图】

一、生成器( iter )从Python2.2起，生成器提供了一种简洁的方式帮助返回列表元素的函数来完成简单和有效的代码。它基于yield指令，允许停止函数并立即返回结果。此函数保存其执行上下文，如果需要，可立即继续执行。1、对比 range 和 xrange 的区别>>> print range(10) [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> print xrange(10) xrange(10)如上代码所示，range会在内存中创建所有指定的数字，而xrange不会立即创建，只有在迭代循环时，...

python迭代器和生成器【代码】【图】

心情有点复杂，同学和几个发小这几天都相继做了爸爸，手段都很低级，肚子搞大，唉~而我确还在组建家庭的路上，我不想太急，家里毕竟不能为我提供更多的帮助，坚持吧！工作之余还在学习确实很累，想一锹挖个井实在太难，还是得慢慢得来，慢慢得学必定有很多的收获，坚持吧！上海的天气好热，早上出门挤上地铁全身已湿透，晚上下班铺面而来的全是汽车尾气和热浪，坚持吧！人生还早，谁能笑到最后呢，坚持吧！1.迭代器协议由于生成器自...

python 之迭代器和生成器（yield）

一、罗列全部的内置函数　　戳：https://docs.python.org/2/library/functions.html二、range、xrange（迭代器）　　无论是range()还是xrange()都是Python里的内置函数。这个两个内置函数最常用在for循环中。例如：>>> for i in range(5):... print i... 01234>>> for i in xrange(5):... print i... 01234>>> range()和xrange() 在Python 2里是两种不同的实现。但是在Python 3里，range()这种实现被移除了；保留了xrange()的实现，...

【Python】【控制流程】【生成器 | 协程 | 期物 | 任务】对比与联系【代码】

Python 的 asyncio 类似于 C++ 的 Boost.Asio。所谓「异步 IO」，就是你发起一个 IO 操作，却不用等它结束，你可以继续做其他事情，当它结束时，你会得到通知。Asyncio 是并发（concurrency）的一种方式。对 Python 来说，并发还可以通过线程（threading）和多进程（multiprocessing）来实现。Asyncio 并不能带来真正的并行（parallelism）。当然，因为 GIL（全局解释器锁）的存在，Python 的多线程也不能带来真正的并行。可交给 a...

python密码生成器【代码】

class Password(object):"""docstring for Combination"""def __init__(self, chas=[chr(j) for j in range(32,127)]):super(Combination, self).__init__()self.chas = chasdef straddone(self,string,index=-1):chars_len = len(self.chas)sting_len = len(string)endstr = self.chas[-1]*sting_lenif string != endstr:i = self.chas.index(string[index])if i >= chars_len-1:i = 0arr = list(string)arr[index] = self.chas[i...

Python：生成器【代码】

generator #生成器可迭代只能读取一次实时生成数据，不全存在内存中用列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的l...

python 迭代器、生成器【代码】

1、迭代器 Iterator 　　【1】迭代器是访问可迭代对象的工具　　【2】迭代器是指用iter(obj) 函数返回的对象(实例)。　　【3】迭代器可以用next(it) 函数获取可迭代对象的数据 2、迭代器函数　　【1】iter(iterable) 从可迭代对象中返回一个迭代器,iterable 必须是能提供一个迭代器的对象。即，用iter函数可以返回一个可迭代对象的迭代器　　【2】next(iterator) 从迭代器iterator中获取下一个记录,如果无法获取下一条记录,则触发...

python基础生成器【代码】

1import time2#python中当我们需要一个循环体，可以使用类似下面命令生成一个有规律的列表，然后对此列表进行循环。下面的语句称为列表生成式。 3# 当被循环列表规模很大时其需要在循环开始到整个循环结束一致占用全量内存空间，而且还有可能整个循环体只需要访问前面几个数据，此时造成空间浪费。 4 list1 = [i**2 for i in range(10)]5print(list1)6#将列表生成式的‘[]’改为‘()’即将列表生成式改为生成器，生成器只有在调用时...

Python 生成器和迭代器，yield语句【代码】

转载，原文链接：https://www.zhihu.com/question/20829330什么是迭代器顾名思义，迭代器就是用于迭代操作（for 循环）的对象，它像列表一样可以迭代获取其中的每一个元素，任何实现了 __next__ 方法（python2 是 next）的对象都可以称为迭代器。它与列表的区别在于，构建迭代器的时候，不像列表把所有元素一次性加载到内存，而是以一种延迟计算（lazy evaluation）方式返回元素，这正是它的优点。比如列表含有中一千万个整数，需...

Python学习之==>生成器【代码】

一、列表生成式如果要生成列表[1x1, 2x2, 3x3, ..., 10x10]怎么做？除了循环还可以用一行语句代替循环生成，如下：1 s = [i*i for i in range(10)] 2print(s) #[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]这种写法就是Python的列表生成式，写列表生成式时，把要生成的元素 i * i 放到前面，后面跟 for 循环，就可以把list创建出来。二、生成器1、通过列表生成式实现　　通过列表生成式，我们可以直接创建一个列表。但受到内存限制，列表...

初学python之生成器【代码】

生成器(generator)概念生成器不会把结果保存在一个系列中，而是保存生成器的状态，在每次进行迭代时返回一个值，直到遇到StopIteration异常结束。生成器语法生成器表达式：通列表解析语法，只不过把列表解析的[]换成()生成器表达式能做的事情列表解析基本都能处理，只不过在需要处理的序列比较大时，列表解析比较费内存。>>> gen = (x**2 for x in range(5)) >>> gen <generator object <genexpr> at 0x0000000002FB7B40> >>> for...

python生成器的几个问题【代码】

1.生成器函数是否可以带参数呢？可以，生成器函数支持所有的参数形式，因为生成器函是函数的一种der count(start=0): while True: yield start start++#指定从0开始的计数器2.生成器函数是否可以用return输出返回值？答案是不可以的，生成器的默认返回值就是生成器，，那么你还要给他一个返回值这个是不行的，总之会报错的，不信你试试。在此任然要说一下，return和yield的区别，如果看过我前一篇博客的人应该会了解。return返回值...

python中的函数、生成器的工作原理【代码】【图】

1.python中函数的工作原理def foo():bar()def bar():passpython的解释器，也就是python.exe(c编写)会用PyEval_EvalFramEx(c函数)运行foo()函数首先会创建一个栈帧(stack Frame),在栈帧对象的上下文里面去运行这个字节码。import dis print(dis.dis(foo)) #打印字节码可以尝试着去打印foo的字节码：关于字节码的解释：LOAD_GLOBAL：首先导入bar这个函数 CALL_FUNCTION：执行bar函数 POP_TOP：从栈的顶端去把元素打印出来 LOAD_CON...

python实战:[高精度密码字典生成器]【代码】【图】

前言emmmm高精度密码字典源码 1.pyimport exrex import sys#url过滤处理def host_para(host):if‘://‘in host:host=host.split(‘://‘)[1].replace(‘/‘,‘‘)if‘/‘in host: host=host.replace(‘/‘,‘‘)return hostdef dic_creat(hosts):web_white=[‘com‘,‘com‘,‘cn‘,‘gov‘,‘edu‘] #后缀白名单 #web_dics=hosts.split(‘.‘)#将传进来的域名以.分割 f_rule=open(‘rule.ini‘,‘r‘)#引入配置文件for i in f_...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – nltk自定义标记生成器和标记器

python – nltk自定义标记生成器和标记器

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – nltk自定义标记生成器和标记器】教程文章相关的互联网学习教程文章

Python之旅（五）迭代器和生成器【代码】

Python全栈之路8--迭代器(iter)和生成器(yield)【代码】【图】

python迭代器和生成器【代码】【图】

python 之迭代器和生成器（yield）

【Python】【控制流程】【生成器 | 协程 | 期物 | 任务】对比与联系【代码】

python密码生成器【代码】

Python：生成器【代码】

python 迭代器、生成器【代码】

python基础生成器【代码】

Python 生成器和迭代器，yield语句【代码】

Python学习之==>生成器【代码】

初学python之生成器【代码】

python生成器的几个问题【代码】

python中的函数、生成器的工作原理【代码】【图】

python实战:[高精度密码字典生成器]【代码】【图】

PYTHON - 相关标签

自定义 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程