首页 / PYTHON / 在Python上基于Markov链生成伪随机文本的教程

在Python上基于Markov链生成伪随机文本的教程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了在Python上基于Markov链生成伪随机文本的教程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3108字，纯文字阅读大概需要5分钟。

内容图文

首先看一下来自Wolfram的定义

马尔可夫链是随机变量{X_t}的集合（t贯穿0,1,...），给定当前的状态，未来与过去条件独立。

Wikipedia的定义更清楚一点儿

...马尔可夫链是具有马尔可夫性质的随机过程...[这意味着]状态改变是概率性的，未来的状态仅仅依赖当前的状态。

马尔可夫链具有多种用途，现在让我看一下如何用它生产看起来像模像样的胡言乱语。

算法如下,

找一个作为语料库的文本，语料库用于选择接下来的转换。
从文本中两个连续的单词开始，最后的两个单词构成当前状态。
生成下一个单词的过程就是马尔可夫转换。为了生成下一个单词，首先查看语料库，查找这两个单词之后跟着的单词。从它们中随机选择一个。
重复2，直到生成的文本达到需要的大小。

代码如下

import random
 
class Markov(object):
  
 def __init__(self, open_file):
  self.cache = {}
  self.open_file = open_file
  self.words = self.file_to_words()
  self.word_size = len(self.words)
  self.database()
   
  
 def file_to_words(self):
  self.open_file.seek(0)
  data = self.open_file.read()
  words = data.split()
  return words
   
  
 def triples(self):
  """ Generates triples from the given data string. So if our string were
    "What a lovely day", we'd generate (What, a, lovely) and then
    (a, lovely, day).
  """
   
  if len(self.words) < 3:
   return
   
  for i in range(len(self.words) - 2):
   yield (self.words[i], self.words[i+1], self.words[i+2])
    
 def database(self):
  for w1, w2, w3 in self.triples():
   key = (w1, w2)
   if key in self.cache:
    self.cache[key].append(w3)
   else:
    self.cache[key] = [w3]
     
 def generate_markov_text(self, size=25):
  seed = random.randint(0, self.word_size-3)
  seed_word, next_word = self.words[seed], self.words[seed+1]
  w1, w2 = seed_word, next_word
  gen_words = []
  for i in xrange(size):
   gen_words.append(w1)
   w1, w2 = w2, random.choice(self.cache[(w1, w2)])
  gen_words.append(w2)
  return ' '.join(gen_words)

为了看到一个示例结果，我们从古腾堡计划中拿了沃德豪斯的《My man jeeves》作为文本，示例结果如下。

In [1]: file_ = open('/home/shabda/jeeves.txt')
 
In [2]: import markovgen
 
In [3]: markov = markovgen.Markov(file_)
 
In [4]: markov.generate_markov_text()
Out[4]: 'Can you put a few years of your twin-brother Alfred,
who was apt to rally round a bit. I should strongly advocate
the blue with milk'

[如果想执行这个例子，请下载jeeves.txt和markovgen.py
马尔可夫算法怎样呢？

最后两个单词是当前状态。
接下来的单词仅仅依赖最后两个单词，也就是当前状态。
接下来的单词是从语料库的统计模型中随机选择的。

这是一个示例文本。

代码如下:

"The quick brown fox jumps over the brown fox who is slow jumps over the brown fox who is dead."

这个文本对应的语料库像这样，

{('The', 'quick'): ['brown'],
 ('brown', 'fox'): ['jumps', 'who', 'who'],
 ('fox', 'jumps'): ['over'],
 ('fox', 'who'): ['is', 'is'],
 ('is', 'slow'): ['jumps'],
 ('jumps', 'over'): ['the', 'the'],
 ('over', 'the'): ['brown', 'brown'],
 ('quick', 'brown'): ['fox'],
 ('slow', 'jumps'): ['over'],
 ('the', 'brown'): ['fox', 'fox'],
 ('who', 'is'): ['slow', 'dead.']}

现在如果我们从"brown fox"开始，接下来的单词可以是"jumps"或者"who"。如果我们选择"jumps"，然后当前的状态就变成了"fox jumps"，再接下的单词就是"over"，之后依此类推。

提示

我们选择的文本越大，每次转换的选择更多，生成的文本更好看。
状态可以设置为依赖一个单词、两个单词或者任意数量的单词。随着每个状态的单词数的增加，生成的文本更不随机。
不要去掉标点符号等。它们会使语料库更具代表性，随机文本更好看。

内容总结

以上是互联网集市为您收集整理的在Python上基于Markov链生成伪随机文本的教程全部内容，希望文章能够帮你解决在Python上基于Markov链生成伪随机文本的教程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/433731.html

来源：【匿名】

【上一篇】Python中生成器和yield语句的用法详解【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【在Python上基于Markov链生成伪随机文本的教程】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

1、GET方式： # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.py # codedtime: 2014-9-20 19:07:04import bottledef check_login(username, password):if username == ‘123‘ and password == ‘234‘:return Trueelse:return False@bottle.route(‘/login‘) def login():if bottle.request.GET.get(‘do_submit‘,‘‘).strip(): #点击登录按钮# 第一种方式(latin1编码) ## username = bottle.requ...

Python 学习之二：Python超短教程【代码】

前言本教程综合Stanford CS231N和UC Berkerley CS188的Python教程。教程很短，但适合有一定编程基础，学过其他语言的童鞋。Python启动Python 解释器Python可以有两种使用方式，一种就是使用解释器interpreter，类似Matlab，输入一行代码，运行一行；另一种就是编写一个py后缀的文档，称为脚本，然后python xxx.py运行脚本script。这里我们使用解释器。在已安装Python的情况下，在Terminal输入python，可以启动Python：FloodSur...

Python基础教程读书笔记

1.字符串的定义,单双引号一样，可以使用转义\2.拼接字符串str1+str23.转换成字符串 str(1000000000000000L)->‘1000000000000000‘ repr(100000000000000000L)->‘100000000000000000L‘ repr是会保留原值的一个操作4.raw_input("valus :") 一般接收用户输入使用此方法5.多行字符串或长字符串可以使用‘‘‘val‘‘‘或"""val"""6.换行也可以使用\7.包含很多特殊字符时转义等操作比较麻烦时，可以使用r‘he\nllo‘, r‘...

在Python中使用元类的教程【代码】

type()动态语言和静态语言最大的不同，就是函数和类的定义，不是编译时定义的，而是运行时动态创建的。比方说我们要定义一个Hello的class，就写一个hello.py模块： class Hello(object):def hello(self, name=‘world‘):print(‘Hello, %s.‘ % name)当Python解释器载入hello模块时，就会依次执行该模块的所有语句，执行结果就是动态创建出一个Hello的class对象，测试如下： >>> from hello import Hello >>> h = Hello() >>> h.h...

Python开发实战教程(8)-向网页提交获取数据

来这里找志同道合的小伙伴！↑↑↑ Python应用现在如火如荼，应用范围很广。因其效率高开发迅速的优势，快速进入编程语言排行榜前几名。本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结。希望大家能够快速入门并学习Python这门语言。本次课程是在掌握python基础之上进行的。基础没有学习的话建议先查看文章学习基础目录：Python开发实战系列教程-链接汇总，持续更新。进行学习。最近几天感冒中，四肢乏力以及...

Python3 入门教程简单但比较不错

本文适合有Java编程经验的程序员快速熟悉Python 本文程序在windows xp+python3.1a1 测试通过. 本文提到的idle指python shell,即安装python后你在菜单看到的IDLE(python gui) 在idle里ctrl+n可以打开一个新窗口,输入源码后ctrl+s可以保存,f5运行程序. 凡打开新窗口即指ctrl+n的操作. 1 你好复制代码代码如下:#打开新窗口,输入: #! /usr/bin/python # -*- coding: utf8 -*- s1=input("Input your name:") print("你好,%s" % s1) ‘...

gis python地理处理工具案例教程-字段多值批量替换综合案例【图】

gis python地理处理工具案例教程-字段多值批量替换综合案例商务合作，科技咨询，版权转让：向日葵，135-4855_4328，xiexiaokui#qq.com。先挂号后预约咨询。目的：查找字段的所有唯一值，对字段值进行批量替换。应用：语义转换，类型合并，中英文翻译。类型：地理处理框架综合应用步骤1 ：获取唯一值工具：UniqueValues 结果： water shrub 灌木 tree grass 草地 unclassified HardenedLand 硬化地 bareland 裸地 build 建築...

用Python给文本创立向量空间模型的教程【代码】

我们需要开始思考如何将文本集合转化为可量化的东西。最简单的方法是考虑词频。我将尽量尝试不使用NLTK和Scikits-Learn包。我们首先使用Python讲解一些基本概念。基本词频首先，我们回顾一下如何得到每篇文档中的词的个数：一个词频向量。 #examples taken from here: http://stackoverflow.com/a/1750187mydoclist = [‘Julie loves me more than Linda loves me‘, ‘Jane likes me more than Julie loves me‘, ‘He likes ba...

Python数据分析基础与实践 Python数据分析实践课程 Python视频教程

课程简介: Python数据分析基础与实践 Python数据分析实践课程 Python视频教程----------------------课程目录------------------------------├<章节1Python概况>├<章节2Python安装>├<章节3数据准备>├<章节4数据处理>├<章节5数据可视化>├<章节6网页数据抓取>├<章节7连接MySQL>├<章节8数据分析> 下载地址；百度网盘原文：http://blog.51cto.com/13888927/2150486

Python 简明教程 --- 23，Python 异常处理【代码】【图】

微信公众号：码农充电站pro 个人主页：https://codeshellme.github.io要么做第一个，要么做最好的一个。目录我们在编写程序时，总会不自觉的出现一些错误，比如逻辑错误，语法错误和一些其它的运行时错误等。逻辑错误：这种错误不会导致程序崩溃，它不容易被发现，只有在执行结果不是我们预期的时候，才会被发现。语法错误：这种错误是不符合语法规定的错误，说白了，就是编译器或者解释器无法理解的代码。出现这种错误时，程序是...

Python教程(1)——配置Python环境【图】

在正式开始学习Python之前我们需要先配置好Python环境。 Python Python可以从Python官方网站上，选择适合你的操作系统的版本下载。下载完之后，运行下载的可执行文件进行安装。 Windows 1. 进入上文的Python官方网站的下载页面。 2. 选择一个版本进行下载（建议选择最新版，目前是3.6.1），进入如下页面。 3. 选择Windows x86-64 executable installer并下载，下载的文件为python-3.6.1-amd64.exe。 4. 运行.exe，注意要勾选"Add...

Python入门教程超详细1小时学会Python【代码】

假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从192.168.0.101到192.168.0.200. 思路:用shell编程.(Linux通常是bash而Windows是批处理脚本).例如,在Windows上用ping ip 的命令依次测试各个机器并得到控制台输出.由于ping通的时候控制台文本通常是"Reply from ... " 而不通的时候文本是"time out ... " ,所以,在结果中进行字符串查找,即可知道该机器是否连通. 实现:Java代码如下:String cmd="...

OpenCV-Python基础教程5-阈值分割与Otsu阈值法【代码】【图】

一、固定阈值分割import cv2 import matplotlib.pyplot as plt# 灰度图读入 img = cv2.imread(‘gradient.jpg‘, 0)# 阈值分割 ret, th = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)cv2.imshow(‘thresh‘, th) cv2.waitKey(0)cv2.threshold()用来实现阈值分割，有4个参数：参数1：要处理的原图，一般是灰度图参数2：设定的阈值参数3：最大阈值，一般是255参数4：阈值的方式，主要有5种，详情：ThresholdTypes理解这5种阈值...

python中sys.argv的说明（读《python简明教程》的困惑解答）

在阅读《python简明教程》的时候，第8章、14章有对sys模块的使用，其中关于sys.argv的说明有一点困惑，让自己思索了好久，后来才恍然大悟，在这里分享一下我所理解到的，以便于和我有一样困惑的python学习者能够更好的理解。以下代码来自于《python简明教程》8.1:例8.1 使用sys模块 #!/usr/bin/python # Filename: using_sys.py import sys print ‘The command line arguments are:‘ for i in sys.argv: print i print ‘\n\nThe...

Python开发WebService系列教程之REST,web.py,eurasia,Django

在Bioinformatics(生物信息学)领域，WebService是很重要的一种数据交换技术，未来必将更加重要。目前EBI所提供的WebService就分别有SOAP和REST两种方式的服务，不管是数据服务还是计算服务（计算任务提交）。1 Python + SOAP/WSDL/UDDI最普遍的做法（个人观点）是使用 python ZSI2.0 ，ZSI还依赖于 SOAPpy 和 pyXML 等LIB。SOAP协议很多人都很熟悉，有很多现有的应用也都使用Java等语言来开发服务端，而客户端除了java，绝大多...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 在Python上基于Markov链生成伪随机文本的教程

在Python上基于Markov链生成伪随机文本的教程

内容导读

内容图文

内容总结

内容备注

内容手机端

【在Python上基于Markov链生成伪随机文本的教程】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

Python 学习之二：Python超短教程【代码】

Python基础教程读书笔记

在Python中使用元类的教程【代码】

Python开发实战教程(8)-向网页提交获取数据

Python3 入门教程简单但比较不错

gis python地理处理工具案例教程-字段多值批量替换综合案例【图】

用Python给文本创立向量空间模型的教程【代码】

Python数据分析基础与实践 Python数据分析实践课程 Python视频教程

Python 简明教程 --- 23，Python 异常处理【代码】【图】

Python教程(1)——配置Python环境【图】

Python入门教程超详细1小时学会Python【代码】

OpenCV-Python基础教程5-阈值分割与Otsu阈值法【代码】【图】

python中sys.argv的说明（读《python简明教程》的困惑解答）

Python开发WebService系列教程之REST,web.py,eurasia,Django

PYTHON - 相关标签

随机 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程