首页 / PYTHON / python3.6 基于Pycharm实现中文分词、去停用词、词云可视化

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python3.6 基于Pycharm实现中文分词、去停用词、词云可视化，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3065字，纯文字阅读大概需要5分钟。

内容图文

可视化词云的时候遇到了中文不显示的问题，解决方法代码中有标注。

import glob
import random
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud


# 数据读取
def get_content(path):
    with open(path, 'r', encoding='utf8', errors='ignore') as f:
        content = ''
        for line in f:
            # 去掉每句话开头和结尾的空格
            line = line.strip()
            content += line
        return content


# 定义一个高频词函数
def get_if(words, top=10):
    tf_dic = {}
    for w in words:
        # 遍历words中的每一个词切片，以词为键，出现的次数为值存储在字典中
        tf_dic[w] = tf_dic.get(w, 0) + 1
    return sorted(tf_dic.items(), key=lambda x: x[1], reverse=True)[:top]


def stop_words(path):
    with open(path, 'r', encoding='utf-8', errors='ignore') as f:
        print(line.strip() for line in f)
        return [line.strip() for line in f]


if __name__ == '__main__':

    # 获取txt文件
    files = glob.glob('./chinese_english')

    # 读取所有文件的内容存在corpus的列表中
    corpus = [get_content(x) for x in files]

    # 获取一个0到corpus长度的整数随机数
    sample_inx = random.randint(0, len(corpus))

    # 使用jieba精确模式分词，
    split_words = list(jieba.cut(corpus[sample_inx]))
    # stop_words('./stop_words.txt')
    split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./stop_words.txt')]

    # 打印随机选取的样本
    print('样本之一： ' + corpus[sample_inx])

    # 打印随机选取的样本的分词情况
    print("\n----------------------->开始分词")
    # print('样本分词结果： ' + '  '.join(split_words))
    for word in split_words:
        print('样本分词结果： ' + word)

    # 统计显示高频词
    print("\n---------------------------------->统计分词结果")
    # print('样本的top(10)词为： ' + str(get_if(split_words)))
    for i in get_if(split_words):
        print('样本的top(10)词为： ' + str(i))

    word_cloud = " ".join(split_words)
    my_wordcloud = WordCloud(font_path='simfang.ttf', collocations=False).generate(word_cloud)

    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()

部分输出结果如下

样本分词结果： 新鲜
样本分词结果： 烤面包
样本分词结果： 味道
样本分词结果： 某
样本分词结果： 一座
样本分词结果： 房里
样本分词结果： 飘
样本分词结果： 出来
样本分词结果： 也许
样本分词结果： 是
样本分词结果： 微风
样本分词结果： 轻拂
样本分词结果： 树叶
样本分词结果： 声音
样本分词结果： 或者
样本分词结果： 是
样本分词结果： 晨光
样本分词结果： 照射
样本分词结果： 轻轻
样本分词结果： 飘落
样本分词结果： 秋叶
样本分词结果： 上
样本分词结果： 方式
样本分词结果： 请
样本分词结果： 你们
样本分词结果： 寻找
样本分词结果： 东西
样本分词结果： 并且
样本分词结果： 记住
样本分词结果： 它们
样本分词结果： 吧


------------------------------>统计分词结果

样本的top(20)词为： ('class', 3)
样本的top(20)词为： ('一个', 3)
样本的top(20)词为： ('一些', 3)
样本的top(20)词为： ('放学', 3)
样本的top(20)词为： ('东西', 3)
样本的top(20)词为： ('I', 3)
样本的top(20)词为： ('you', 3)
样本的top(20)词为： ('你们', 3)
样本的top(20)词为： ('人', 3)
样本的top(20)词为： ('它', 3)
样本的top(20)词为： ('也许', 3)
样本的top(20)词为： ('way', 3)
样本的top(20)词为： ('or', 3)
样本的top(20)词为： ('it', 3)
样本的top(20)词为： ('very', 2)
样本的top(20)词为： ('school', 2)
样本的top(20)词为： ('with', 2)
样本的top(20)词为： ('when', 2)
样本的top(20)词为： ('over', 2)
样本的top(20)词为： ('things', 2)

词云

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化 - 文章图片

内容总结

以上是互联网集市为您收集整理的python3.6 基于Pycharm实现中文分词、去停用词、词云可视化全部内容，希望文章能够帮你解决python3.6 基于Pycharm实现中文分词、去停用词、词云可视化所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/841157.html

来源：【匿名】

【上一篇】Python学习【第5篇】：Python之函数（自定义函数，内置函数，装饰器，迭代器，生成器）【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python3.6 基于Pycharm实现中文分词、去停用词、词云可视化】教程文章相关的互联网学习教程文章

python工具pycharm使用-断点调试【图】

第一步：在编辑框左边，点上小红点，任何在编辑框上面点击debug运行模式第二步：点击重新执行图标下面的resume图标，即每点一次该图标程序都会按顺序执行每一步，执行过程中如果有bug会输出错误信息第三步：console窗口可以看到程序输出结果;原文：http://www.cnblogs.com/repo/p/5426187.html

Python 代码编辑器怎么选？PyCharm、VS Code、Jupyter Notebook 都各有特色【图】

Python 代码编辑器怎么选？PyCharm、VS Code、Jupyter Notebook 都各有特色，Jupyter 适合做数据分析这些需要可视化的操作，PyCharm 更适合做完整的 Python 项目。然而，因为交互式操作，很少会有开发者想到用 Jupyter 做 Debug。尽管很多读者可能认为 Jupyter 用来做展示和小型试验就足够了，Debug 并没有太大的需求，但弥补上 Jupyter 缺失的一环，能让它更好用，未来 Debug 也会作为默认模式。为什么 Jupyter 需要 Debug？ ...

PyCharm中创建项目时，在所创建的python虚拟环境下的pip失效【图】

在这篇博文里，我简单地叙述了我在使用PyCharm创建一个flask项目时遇到的问题，以及我解决这个问题的过程。其中比较值得注意的点有：①PyCharm创建新项目时的解释器配置②Python虚拟环境的创建等。一、问题描述在pyCharm中创建flask项目时，在建立好虚拟环境，开始自动用pip工具安装flask的时候，软件提示：Install flask failed。如图所示：我的PyCharm 版本为2019.2.3专业版（是用教育邮箱白嫖的，感谢JetBrains）。并且，我在我...

【PyCharm中文教程 04】运行 Python 的四种方式【代码】【图】

1. 设置 Python 解释器PyCharm 只是提供一个集成开发环境，你在执行 Python 程序时，还是得依赖 Python 解释器。在一台电脑上，可以存在多个版本的 Python 解释器，所以你在执行 Python 程序前，你首先得告诉 PyCharm 你想用哪个 Python 解释器去执行程序。打开设置，搜索 Interpreter （如下图），就可以添加你的 Python 解释器了。设置完成后，在主界面就可以看到这里多了这么块内容。你以后想读一些内置模块的代码，可以直接从这...

Pycharm如何在控制台输出窗口中使用Python解释器【图】

打开菜单栏run->edit configurations，把下图中的复选框选中就可以了。原文：https://www.cnblogs.com/FengZeng666/p/11437846.html

python3+PyQt5+pycharm桌面GUI开发环境搭建【代码】【图】

python3+PyQt5+pycharm桌面GUI开发环境搭建一、安装pythonPyQt5所支持的python版本是不低于3.5版本python3.5以上的版本安装：https://www.python.org/downloads/windows/二、安装PyQt5pip install PyQt5 pip install PyQt5-tools三、配置pycharm官网下载安装pycharm：https://www.jetbrains.com/pycharm/1，点击：File -》Settings2，Tools -》 External Tools -》点击“+”号 3，设置Qt Designer修改三个地方，其他地方默认：Nam...

Python pycharm 引入需要使用的包【图】

第一步第二步第三步原文：https://www.cnblogs.com/xibuhaohao/p/10382799.html

Python IDE从pydev到PyCharm【图】

个人感觉PyCharm相比pydev的几个优点:1. diff文件的时候，修改前的文件在左边，修改后的在右边。你可能会说，“what?! 这也算亮点?” 是的，pydev的diff就是so任性地的把修改后的文件放左边的。2. 与git的完美集成。 diff的窗口中可以编辑源文件是一个很实用的功能，提交代码前用diff浏览所有的修改的时候，经常免不了随手做一些改动。 pyCharm中merge解决conflict的功能很直观: 三个窗口横向排列, 左右两个窗口往中间...

使用Python2.x，在Pycharm工具下，如果存在中文等非英文字符输出或注释时，运行代码，会出现提示：SyntaxError: Non-ASCII character '\xe7'

在Python文件开头，第一行代码，有两种写法：1、使用#coding=UTF-8（等号也可以换为“:”） 2、或者 #-- coding:UTF-8 -- 备注：python的默认编码文件是用的ASCII码，在Python 3.X中没有这种错误。\xe7'' ref='nofollow'>使用Python2.x，在Pycharm工具下，如果存在中文等非英文字符输出或注释时，运行代码，会出现提示：SyntaxError: Non-ASCII character '\xe7'原文：https://www.cnblogs.com/axue-20200220/p/12337907.html

Python集成开发环境（IDE：Integrated Development Environment）: PyCharm【图】

原文地址：https://www.runoob.com/python/python-install.htmlPyCharm 是由 JetBrains 打造的一款 Python IDE，支持 macOS、 Windows、 Linux 系统。PyCharm 功能 : 调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制……PyCharm 下载地址 : https://www.jetbrains.com/pycharm/download/PyCharm 安装地址：http://www.runoob.com/w3cnote/pycharm-windows-install.html如果需要使用 Pycharm 又恰好...

python GUI （pycharm + Python3.7.0+PyQt5 配置）【图】

UI需求，搭建开发环境，基于 pycharm + Python3.7.0+PyQt5 。网上资料众多，深一脚浅一脚过来，多言无益，来吧。一、武器的准备1、安装PyQt5：pip install PyQt52、安装QtDesigner：入坑过程：pip install PyQt5-tools ( Could not find a version that satisfies the requirement pyqt5-tools ) -- God.出坑：安装：qt-opensource-windows-x86-msvc -- 终于有了 Designer.exe. 二、配置1、Pycharm添加QtDesigner，为了生成.ui（Q...

Pycharm安装+python安装+环境配置【图】

Pycharm工具： 1.安装jdk（64位）：jdk-8u65-windows-x64.exe 路径：C:\Program Files\Java（默认路径） 2.配置环境步骤一：系统变量→新建 JAVA_HOME 变量。变量值填写jdk的安装目录（本人是C:\Program Files\Java\jdk1.8.0_65)步骤二：系统变量→寻找 Path 变量→编辑在变量值最后输入 %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;步骤三：系统变量→新建 CLASSPATH 变量变量值填写 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar（...

Python3及Pycharm安装【图】

1、首先去python官网下载相应版本的Python安装包。如下： 2、下载完成后解压，双击exe文件进行安装，看到如下界面：Install Now表示默认安装；Customize installation表示自定义安装（推荐）。注意：一定要勾选下面两个勾选框。重点是第二个，会自动为你增加好它的环境变量。 3、然后Next，可修改自定义安装路径，也可以直接点击Install进行安装。 4、安装完成后，我们需要验证python是否安装成功：可以在命令窗口输入python，有显...

[python IDE] 舒服的pycharm设置【图】

个人使用的IDE有国产的ulipad,sublime text 3 ,或者vs集成下的，不过讲到好用跨平台，还真是只有pycharm 写python最舒服，一个是因为有社区版，免费，不存在版权问题，另外跨平台，ubuntu ,windows,mac 都用的很舒服，然后配置一些常用设置，就能达到很好的效果，OK我将我自己的设置如下图。一个是选择Monokai字体，颜色配置很舒服大家都知道python的缩进了，将这些空白格以颜色显示出来，这样可以很直接的查看这些内容另外...

Python学习之pycharm的快捷键大全

PyCharm是一款功能强大的Python编辑器，具有跨平台性，还支持Django、IronPython和APP Engine开发。那么你知道PyCharm的快捷键有哪些吗?我们一起来看看吧。编辑　　Ctrl + Space 基本的代码完成　　Ctrl + Alt + Space 快速导入任意类　　Ctrl + Shift + Enter 语句完成　　Ctrl + P 参数信息　　Ctrl + Q 快速查看文档　　Shift + F1 外部文档　　Ctrl + 鼠标　　Ctrl + F1 显示错误描述或警告信息　　Alt + Insert 自动生成代码　...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python3.6 基于Pycharm实现中文分词、去停用词、词云可视化

python3.6 基于Pycharm实现中文分词、去停用词、词云可视化

内容导读

内容图文

内容总结

内容备注

内容手机端

【python3.6 基于Pycharm实现中文分词、去停用词、词云可视化】教程文章相关的互联网学习教程文章

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程