首页 / PYTHON / 基于共现发现人物关系的python实现

基于共现发现人物关系的python实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了基于共现发现人物关系的python实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2668字，纯文字阅读大概需要4分钟。

内容图文

基于共现发现人物关系的python实现

参考链接：
提取《釜山行》人物关系,
用Python的networkx绘制精美网络图

1.共现关系

在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系。而在这里，我们需要通过分析一篇小说或剧本，来分析剧中各个角色之间的人物关系。两者有很相同的地方。

一般我们认为，在一篇文章中的同一段出现的两个人物之间，一定具有某种关联，因此我们的程序的大致流程也可以确定下来。我们可以先做分词，将每一段中的人物角色抽取出来，然后以段落为单位，统计两个角色同时出现的出现次数，并把结果存在一个二维矩阵之中。这个矩阵也可以作为关系图的矩阵，矩阵中的元素（统计的出现次数）就是边的权值。

举个例子，比如，现有三个段落的分词结果如下：a/b/c，b/a/f，a/d/c，那么就是ab共现2次，ac共现2次，以此类推。

同时，为了方便，我们把人物和人物关系也通过文件记录，我们要分析的人物关系则来自于人名的名义（小说）

2.jieba分词

jieba分词的原理和语法可以参考这篇文章《中文分词的基本原理以及jieba分词的用法》

虽然有jieba分词可以对文章进行分析，但是仍然不是很准。比如，人名名义中有一个角色叫“易学习”，“易”是副词，“学习”是动词，因此很难将这个人名分出来。不过好在结巴分词提供了自定义字典，我们就可以根据之前的分词结果，一点一点去修正自己的字典即可。当然，我建议在构建自定义字典的时候，最好先直接把人名的名义的角色表直接抄一份过来，词性全部标记成nr（人名）。

这样我们就可以通过先分词，然后筛选词性的方式，把名字筛选出来。筛选出之后，就记录到每一段的一个list中，用于后面的矩阵构成。

这个过程我们是以段落为单位进行的，因此可以设置一个全局字典来记录每一个角色的权重（即词频统计）。代码如下：

            
                # 将剧本进行分词，并将表示人名的词提出，将其他停用词和标点省略
                # 提出人名的同时，同name字典记录下来，作为矩阵的行和列
                def cut_word(text):
    words=pseg.cut(text)
    L_name=[]
    for x in words :
        if x.flag!=‘nr‘orlen(x.word) <2:
            continueifnot Names.get(x.word):
            Names[x.word]=1else:
            Names[x.word]=Names[x.word]+1
        L_name.append(x.word)
    return L_name

# 建立词频字典和每段中的人物列表def namedict_built():
    global Names
    withopen(‘e:/PY/relationship_find/test.txt‘,‘r‘) as f:
        for l in f.readlines():
            n=cut_word(l)
            iflen(n)>=2: # 由于要计算关系，空list和单元素list没有用
                Lines.append(n)
    Names=dict(sorted(Names.items(),key =lambda x:x[1],reverse =True)[:36])
    # print(Line)

3.构建矩阵

虽然嘴上说着矩阵，但实际上在代码里使用二维字典完成的，因为这样访问起来比较快。统计也很简(bao)单(li)，就是把我们在上面得出的每一段的人物list都遍历一遍。。.

由于，分词结果总是会有一些奇怪的词，所以，我们在构建矩阵的时候，直接以上面代码中的Names中的人物为基准，滤掉其他不在Names中的词，不然会有其他东西乱入。代码如下：

            
                # 通过遍历Lines来构建贡献矩阵
                def relation_built():
    for key in Names:
        relationships[key]={}
    for line in Lines:
        for name1 in line:
            ifnot Names.get(name1):
                continuefor name2 in line:
                if name1==name2 or (not Names.get(name2)):
                    continueifnot relationships[name1].get(name2):     
                    relationships[name1][name2]=1else:
                    relationships[name1][name2] = relationships[name1][name2]+1# print(relationships)

networkx+matplotlib作图

有了前面的relationships矩阵，我们就可以根据矩阵来做带权边的网络图了。这个作图方法网上教程无数，具体就不记录了，代码大概是这样：

            
                def Graph_show():
    mpl.rcParams[‘font.sans-serif‘] = [‘FangSong‘] # 指定默认字体
    mpl.rcParams[‘axes.unicode_minus‘] =False# 解决保存图像是负号‘-‘显示为方块的问题
    G=nx.Graph()
    # 在NetworkX中，节点可以是任何哈希对象，像一个文本字符串，一幅图像，一个XML对象，甚至是另一个图或任意定制的节点对象withopen(‘e:/PY/relationship_find/edge.txt‘,‘r‘) as f:
        for i in f.readlines():
            line=str(i).split()
            if line == []:
                continueifint(line[2])<=50:
                continue
            G.add_weighted_edges_from([(line[0],line[1],int(line[2]))])
    nx.draw(G,pos=nx.shell_layout(G),node_size=1000,node_color =‘#A0CBE2‘,edge_color=‘#A0CBE1‘,with_labels =True,font_size=12)
    plt.show()

做出来的图。。挺丑的说实话，不过好歹是个靠谱的图了
技术分享图片

原文：https://www.cnblogs.com/August1s/p/8907251.html

内容总结

以上是互联网集市为您收集整理的基于共现发现人物关系的python实现全部内容，希望文章能够帮你解决基于共现发现人物关系的python实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1110401.html

来源：【匿名】

【上一篇】python requests 抓取one 首页推送文字和图片【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【基于共现发现人物关系的python实现】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

这是之前做的一个小项目。这几天刚好整理了一些相关资料，顺便就在这里做一个梳理啦~ 简单来说这个项目实现了，登录人人网并爬取用户数据。并对用户数据进行分析挖掘，终于效果例如以下：1、存储人人网用户数据（户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页）。2、信息可视化，绘制户主好友间的关系网络图；3、数据挖掘，通过分析户主好友关注的公共主页，向户主推荐公共主页。项目分为三个部分，各自是人...

python实现排序算法（一）——插入排序算法【代码】

1‘‘‘ 2插入排序算法3原始数据data4排序数据后数据SortedData,默认是从小打大排序5 61.从data第一个元素开始，该元素赋值给SortedData[0],可以认为SortedData已经被排序 7 82.取出data的一个元素data[i],9 (1)从左到右扫描SortedData， 10 如果data[i]小于SortedData的某个元素SD，那么将data[i]插入SD的位置,选取下一个元素 11 (1)如果data[i]大于SortedData最后一个元素，将data[1]插入到SortedData的末尾，选取下...

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

1、GET方式： # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.py # codedtime: 2014-9-20 19:07:04import bottledef check_login(username, password):if username == ‘123‘ and password == ‘234‘:return Trueelse:return False@bottle.route(‘/login‘) def login():if bottle.request.GET.get(‘do_submit‘,‘‘).strip(): #点击登录按钮# 第一种方式(latin1编码) ## username = bottle.requ...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

TOPk实现(python)【代码】

import heapqclass TopK:def__init__(self, iterable, k):self.minheap = []self.capacity = kself.iterable = iterabledef push(self, val):if len(self.minheap) >= self.capacity:min_val = self.minheap[0]if val < min_val: passelse:heapq.heapreplace(self.minheap, val) else:heapq.heappush(self.minheap, val) def get_topk(self):for val in self.iterable:self.push(val)return self.minheapdef test():import rando...

Python封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应【图】

封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应代码：def info(l):l1 = l[:]for i in range(len(l)):v = l.count(l[i])if l1.count(l[i]) > 1:for j in range(1, v):l1.remove(l[i])return l1print(info([1, 2, 3, 4, 2, 3, 6, 2]))思想：统计相同元素出现的次数，然后删除到1原文：http://blog.51cto.com/13241097/2114105

Python + Opencv2 实现轮廓提取，轮廓区域面积计算【代码】【图】

对图像处理时，会遇到这样一个场景：找到图像主体轮廓，这是其一，可能为了凸显轮廓，需要用指定的颜色进行标记；轮廓标记完可能任务还没有结束，还需对轮廓所勾勒的像素面积区域统计计算。本篇文章的主要内容就是要解决上面场景遇到的三个问问题找到图像主题轮廓；用指定颜色对源图像进行轮廓标记；计算轮廓中的主体;实验环境配置为 Python + Opencv 3.4，处理的图像如下：第一步，提取轮廓，Opencv 中的 findContours() 函数可...

选择排序python实现【代码】

选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小（或最大）的一个元素，存放在序列的起始位置，直到全部待排序的数据元素排完。注意每次查找到最小值之后要将之从原列表中弹出，避免重复查找。 1def findsmallest(d):2 smallest = d[0]3 smallest_number = 04for i in range(1,len(d)):5if smallest > d[i]:6 smallest = d[i]7 smallest_...

Python实现二叉树的非递归先序遍历【代码】

思路：1. 使用列表保存结果；2. 使用栈（列表实现）存储结点；3. 当根结点存在，保存结果，根结点入栈；4. 将根结点指向左子树；5. 根结点不存在，栈顶元素出栈，并将根结点指向栈顶元素的右子树；6. 重复步骤3-6，直到栈空。LeetCode: 144. Binary Tree Preorder Traversal# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x# self.left = None# ...

Python学习——实现简单的交互raw_input的使用【代码】

row_input的使用：>>> name=raw_input("please input your name:") please input your name:xiaobai >>> name ‘xiaobai‘编写小程序，询问用户姓名，性别，年龄，工作，工资，以格式化的方式输出：Information of company stuff：Name：Age：Sex：Job：代码：[root@nfs-server ~]# vim information_of_stuff.py #!/bin/python name=raw_input("Please input your name:") age=raw_input("Please input your age:") sex=raw_inp...

python实现线性规划【代码】【图】

python工具包scipy linprog函数格式scipy.optimize.linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None, bounds=None, method=‘simplex‘, callback=None, options=None)官方文档 https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linprog.html实例minmize: -7x1+7x2-2x3-x4-6x5s.t.: 3x1-x2+x3-2x4=-3 2x1+x2+x4+x5=4 -x1+3x2-3x4+x6=12 xi>=0程序代码：import numpy ...

从函数内函数定义看python的函数实现

一、问题在C/C++中，函数的定义本质上是在编译阶段完成，而函数调用是由链接完成。但是对于python这种语言，函数的定义和调用都是由解释器在运行时完成，或者说，解释器在执行函数定义的时候，同样是生成了虚拟机指令，这个指令通常可以理解为MAKE_FUNCTION这个虚拟机指令，这个指令生成的则是一个PyFunctionObject对象。对应的，在函数调用的时候执行的是CALL_FUNCTION，这个指令需要生成一个PyFrameObject对象。二、CALL_FUNCTIO...

python random() 简单实现验证码【代码】

import randomwhile True: code = ‘‘ for i in range(4): current = random.randrange(0,4) if current == i: temp = chr(random.randint(65,90)) else: temp = str(random.randint(0,9)) code+=temp print(code) input_user = input("请输入验证码：") if input_user == code: print("。。。。。。。。。欢迎。。。。。。。") break else: ...

LeetCode 剑指 Offer 09. 用两个栈实现队列 | Python【代码】【图】

剑指 Offer 09. 用两个栈实现队列题目来源：力扣（LeetCode）https://leetcode-cn.com/problems/yong-liang-ge-zhan-shi-xian-dui-lie-lcof题目用两个栈实现一个队列。队列的声明如下，请实现它的两个函数 appendTail 和 deleteHead ，分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素，deleteHead 操作返回 -1 )示例 1：输入： ["CQueue","appendTail","deleteHead","deleteHead"] [[],[3],[],[]] 输出：...

windows7 python3.63使用selenium+webdriver 实现自动登录使用过程【代码】【图】

本人用的是python3.63版本这里会讲到安装时所遇到的问题这里是根据火狐浏览器来操作的1、首先安装selenium 在 windows 的 cmd窗口通过pip 没安装pip的小伙伴自行去搜搜相关pip安装方法pip install selenium安装成功后测试一下是否能正常运行打开百度输入关键字并且搜索from selenium import webdriver import time Drivers=webdriver.Firefox()#声明火狐浏览器驱动对象 try:Drivers.get(‘https://www.baidu.com‘...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 基于共现发现人物关系的python实现

基于共现发现人物关系的python实现

内容导读

内容图文

基于共现发现人物关系的python实现

1.共现关系

2.jieba分词

3.构建矩阵

networkx+matplotlib作图

内容总结

内容备注

内容手机端

【基于共现发现人物关系的python实现】教程文章相关的互联网学习教程文章

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程