首页 / PYTHON / 探讨两个开源的 Python 包，进行社交媒体情感分析入门

探讨两个开源的 Python 包，进行社交媒体情感分析入门

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了探讨两个开源的 Python 包，进行社交媒体情感分析入门，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7380字，纯文字阅读大概需要11分钟。

内容图文

[ 探讨两个开源的 Python 包，进行社交媒体情感分析入门 - 文章图片

学习自然语言处理的基础知识并探索两个有用的 Python 包。

自然语言处理（NLP）是机器学习的一种，它解决了口语或书面语言和计算机辅助分析这些语言之间的相关性。日常生活中我们经历了无数的 NLP 创新，从写作帮助和建议到实时语音翻译，还有口译。

本文研究了 NLP 的一个特定领域：情感分析。重点是确定输入语言的积极、消极或中性性质。本部分将解释 NLP 和情感分析的背景，并探讨两个开源的 Python 包。

在学习情感分析时，对 NLP 有一个大体了解是有帮助的。本文不会深入研究数学本质。相反，我们的目标是阐明 NLP 中的关键概念，这些概念对于将这些方法实际结合到你的解决方案中至关重要。

大家在学python的时候肯定会遇到很多难题，以及对于新技术的追求，这里推荐一下我们的Python学习扣qun：784758214，这里是python学习者聚集地！！同时，自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！每日分享一些学习的方法和需要注意的小细节

自然语言和文本数据

合理的起点是从定义开始：“什么是自然语言？”它是我们人类相互交流的方式，沟通的主要方式是口语和文字。我们可以更进一步，只关注文本交流。毕竟，生活在 Siri、Alexa 等无处不在的时代，我们知道语音是一组与文本无关的计算。

数据前景和挑战

我们只考虑使用文本数据，我们可以对语言和文本做什么呢？首先是语言，特别是英语，除了规则还有很多例外，含义的多样性和语境差异，这些都可能使人类口译员感到困惑，更不用说计算机翻译了。在小学，我们学习文章和标点符号，通过讲母语，我们获得了寻找直觉上表示唯一意义的词的能力。比如，出现诸如 “a”、“the” 和 “or” 之类的文章，它们在 NLP 中被称为停止词，因为传统上 NLP 算法是在一个序列中找到这些词时意味着搜索停止。

由于我们的目标是自动将文本分类为情感类，因此我们需要一种以计算方式处理文本数据的方法。因此，我们必须考虑如何向机器表示文本数据。众所周知，利用和解释语言的规则很复杂，输入文本的大小和结构可能会有很大差异。我们需要将文本数据转换为数字数据，这是机器和数学的首选方式。这种转变属于特征提取的范畴。

在提取输入文本数据的数字表示形式后，一个改进可能是：给定一个文本输入体，为上面列出的文章确定一组向量统计数据，并根据这些数据对文档进行分类。例如，过多的副词可能会使撰稿人感到愤怒，或者过度使用停止词可能有助于识别带有内容填充的学期论文。诚然，这可能与我们情感分析的目标没有太大关系。

词袋

当你评估一个文本陈述是积极还是消极的时候，你使用哪些上下文来评估它的极性？（例如，文本中是否具有积极的、消极的或中性的情感）一种方式是隐含形容词：被称为 “disgusting”（恶心）的东西被认为是消极的，但如果同样的东西被称为 “beautiful”（漂亮），你会认为它是积极的。从定义上讲，俗语给人一种熟悉感，通常是积极的，而脏话可能是敌意的表现。文本数据也可以包括表情符号，它带有固定的情感。

理解单个单词的极性影响为文本的词袋bag-of-words（BoW）模型提供了基础。它分析一组单词或词汇表，并提取关于这些单词在输入文本中是否存在的度量。词汇表是通过处理已知极性的文本形成称为标记的训练数据。从这组标记数据中提取特征，然后分析特征之间的关系，并将标记与数据关联起来。

“词袋”这个名称说明了它的用途：即不考虑空间位置或上下文的的单个词。词汇表通常是由训练集中出现的所有单词构建的，训练后往往会被修剪。如果在训练之前没有清理停止词，那么停止词会因为其高频率和低语境而被移除。很少使用的单词也可以删除，因为缺乏为一般输入实例提供的信息。

但是，重要的是要注意，你可以（并且应该）进一步考虑单词在单个训练数据实例之外的情形，这称为词频term frequency（TF）。你还应该考虑输入数据在所有训练实例中的单词计数，通常，出现在所有文档中的低频词更重要，这被称为逆文本频率指数inverse document frequency（IDF）。这些指标一定会在本主题系列的其他文章和软件包中提及，因此了解它们会有所帮助。

词袋在许多文档分类应用程序中很有用。然而，在情感分析中，当缺乏情境意识的问题被利用时，事情就可以解决。考虑以下句子：

我们不喜欢这场战争。
我讨厌下雨天，好事是今天是晴天。
这不是生死攸关的问题。

这些短语的情感对于人类口译员来说是有难度的，而且通过严格关注单个词汇的实例，对于机器翻译来说也是困难的。

在 NLP 中也可以使用称为 “n-grams” 的单词分组。一个二元组考虑两个相邻单词组成的组而不是（或除了）单个词袋。这应该可以缓解诸如上述“不喜欢”之类的情况，但由于缺乏语境意思，它仍然是个问题。此外，在上面的第二句中，下半句的情感语境可以被理解为否定前半部分。因此，这种方法中也会丢失上下文线索的空间局部性。从实用角度来看，使问题复杂化的是从给定输入文本中提取的特征的稀疏性。对于一个完整的大型词汇表，每个单词都有一个计数，可以将其视为一个整数向量。大多数文档的向量中都有大量的零计数向量，这给操作增加了不必要的空间和时间复杂度。虽然已经提出了许多用于降低这种复杂性的简便方法，但它仍然是一个问题。

词嵌入

词嵌入Word embedding是一种分布式表示，它允许具有相似含义的单词具有相似的表示。这是基于使用实值向量来与它们周围相关联。重点在于使用单词的方式，而不仅仅是它们的存在与否。此外，词嵌入的一个巨大实用优势是它们关注于密集向量。通过摆脱具有相应数量的零值向量元素的单词计数模型，词嵌入在时间和存储方面提供了一个更有效的计算范例。

以下是两个优秀的词嵌入方法。

Word2vec

第一个是 Word2vec，它是由 Google 开发的。随着你对 NLP 和情绪分析研究的深入，你可能会看到这种嵌入方法。它要么使用一个连续的词袋continuous bag of words（CBOW），要么使用一个连续 skip-gram 模型。在 CBOW 中，一个单词的上下文是在训练中根据围绕它的单词来学习的。连续 skip-gram 学习倾向于围绕给定的单词学习单词。虽然这可能超出了你需要解决的问题，但是如果你曾经面对必须生成自己的词嵌入情况，那么 Word2vec 的作者就提倡使用 CBOW 方法来提高速度并评估频繁的单词，而 skip-gram 方法更适合嵌入稀有单词更重要的嵌入。

GloVe

第二个是用于词表示的全局向量Global Vectors for Word Representation（GloVe），它是斯坦福大学开发的。它是 Word2vec 方法的扩展，试图通过将经典的全局文本统计特征提取获得的信息与 Word2vec 确定的本地上下文信息相结合。实际上，在一些应用程序中，GloVe 性能优于 Word2vec，而在另一些应用程序中则不如 Word2vec。最终，用于词嵌入的目标数据集将决定哪种方法最优。因此，最好了解它们的存在性和高级机制，因为你很可能会遇到它们。

创建和使用词嵌入

最后，知道如何获得词嵌入是有用的。在第 2 部分中，你将看到我们通过利用社区中其他人的实质性工作，站到了巨人的肩膀上。这是获取词嵌入的一种方法：即使用现有的经过训练和验证的模型。实际上，有无数的模型适用于英语和其他语言，一定会有一种模型可以满足你的应用程序，让你开箱即用！

如果没有的话，就开发工作而言，另一个极端是培训你自己的独立模型，而不考虑你的应用程序。实质上，你将获得大量标记的训练数据，并可能使用上述方法之一来训练模型。即使这样，你仍然只是在理解你输入文本数据。然后，你需要为你应用程序开发一个特定的模型（例如，分析软件版本控制消息中的情感价值），这反过来又需要自己的时间和精力。

你还可以对针对你的应用程序的数据训练一个词嵌入，虽然这可以减少时间和精力，但这个词嵌入将是特定于应用程序的，这将会降低它的可重用性。

可用的工具选项

考虑到所需的大量时间和计算能力，你可能想知道如何才能找到解决问题的方法。的确，开发可靠模型的复杂性可能令人望而生畏。但是，有一个好消息：已经有许多经过验证的模型、工具和软件库可以为我们提供所需的大部分内容。我们将重点关注 Python，因为它为这些应用程序提供了大量方便的工具。

SpaCy

SpaCy 提供了许多用于解析输入文本数据和提取特征的语言模型。它经过了高度优化，并被誉为同类中最快的库。最棒的是，它是开源的！SpaCy 会执行标识化、词性分类和依赖项注释。它包含了用于执行此功能的词嵌入模型，还有用于为超过 46 种语言的其他特征提取操作。在本系列的第二篇文章中，你将看到它如何用于文本分析和特征提取。

vaderSentiment

vaderSentiment 包提供了积极、消极和中性情绪的衡量标准。这些模型是专门为社交媒体文本数据开发和调整的。VADER 接受了一组完整的人类标记过的数据的训练，包括常见的表情符号、UTF-8 编码的表情符号以及口语术语和缩写（例如 meh、lol、sux）。

对于给定的输入文本数据，vaderSentiment 返回一个极性分数百分比的三元组。它还提供了一个单个的评分标准，称为 vaderSentiment 复合指标。这是一个在 [-1, 1] 范围内的实值，其中对于分值大于 0.05 的情绪被认为是积极的，对于分值小于 -0.05 的被认为是消极的，否则为中性。

内容总结

以上是互联网集市为您收集整理的探讨两个开源的 Python 包，进行社交媒体情感分析入门全部内容，希望文章能够帮你解决探讨两个开源的 Python 包，进行社交媒体情感分析入门所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/814043.html

来源：【匿名】

【上一篇】万能的Python和Pygame模块构建一个游戏框架(3)【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【探讨两个开源的 Python 包，进行社交媒体情感分析入门】教程文章相关的互联网学习教程文章

Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析

CODE:#!/usr/bin/python # -*- coding: utf-8 -*-''' Created on 2014-7-3 @author: guaguastd @name: tweet_lexical_diversity.py '''# Compute lexical diversity def lexical_diversity(tokens):return 1.0*len(set(tokens))/len(tokens)# Compute the average number of words per tweet def average_words(statuses):total_words = sum([len(s.split()) for s in statuses])return 1.0*total_words/len(statuses)if __name__...

数值分析实验之线性方程组的迭代求解(Python实现)【代码】【图】

详细实验指导见上一篇，此处只写内容啦实验内容：求解如下4元线性方程组的近似解。 ? Jacobi迭代过程 1import numpy as np2 3 A = np.array([[10,-1,2,0],[-1,11,-1,3],[2,-1,10,-1],[0,3,-1,8]])4 B = np.array([6, 25, -11, 15])5 x0 = np.array([0.0, 0, 0, 0])6 x = np.array([0.0, 0, 0, 0])7 8 times = 0910while True: 11for i in range(4): 12 temp = 0 13for j in range(4): 14if i != j: 15 ...

python3 爬虫5--分析Robots协议

1Robots协议Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下robots.txt中内容的示范：User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效Disallow:/ //表示了不允许抓取的目录，/表示不允许抓取所有目录，没有写就代表允许抓取所有的目录Allow:/public/ //表示在排除Disallow中，可以抓取的目录2robotparserobotparse就是用来专门解析robots.txt文件的...

（一）Python入门-3序列：01列表-特点-内存分析【图】

一：序列介绍　　序列是一种数据存储方式，用来存储一系列的数据。在内存中，序列就是一块用来存放多个值的连续的内存空间。比如一个整数序列[10,20,30,40]，可以这样示意表示：　　由于 Python3 中一切皆对象，在内存中实际是按照如下方式存储的： a = [10,20,30,40]　　从图示中，可以看出序列中存储的是整数对象的地址，而不是整数对象的值。python 中常用的序列结构有：字符串、列表、元组、字典、集合　　上一章学习的字符串...

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Web 数据抓取技术具有非常巨大的应用需求及价值，用 Python 在网页上收集数据，不仅抓取数据的操作简单，而且其数据分析功能也十分强大。通过 Python 的时lib 组件中的 urlparse 函数，可轻松解析指定网址的内容，在接收返回的 ParseResult 对象后，即可通过其属性取出网址中各项有用信息。 Python 还可进一步用 requests 函数抓取网页源代码，再通过相关语句或正则表达式搜索得到指定的数据。如果要抓取的数据比较复杂， ...

数据分析：PYTHON可以预测新冠病毒得病人数吗？

Python用几行程序，就可以做出线性回归分析。线性回归方程，利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系。方程其实是中学数学课程内容。用此方法根据已知数据推测未来数据，一般不易让人接受。要知道未来有很多变化因素。但近期新冠病毒，用此方法预测未来可能的得病人数，却也不得不惊叹这个方程，也是可以借鉴的。根据Python分析英国病例的数据，推测出死亡人数基本每三天就要翻倍。看下表，由此推...

Python遥感数据主成分分析【代码】【图】

原文：http://www.cnblogs.com/leonwen/p/5158947.html 该算法由MatLab移植而来（具体参见上一篇博文）。但是最终输出结果却和MatLab不一致，经排查发现在进行调用两者内部函数eig进行求解特征值和特征向量的时候，两者特征值都一致，但是特征向量却不同。　　可是，从理论上感觉也说得过去，因为特征向量本来就具有不唯一性。最让人费解的是，就算两者特征向量不一致，可为什么使用PCA的结果却反差很大呢？感觉上来看，好像是Pyth...

python数据分析之NUMPY基础01

以下操作都需要导入numpy模块（没有该模块的需要安装）from numpy import *创建数组：创建一维数组：>>>a=arange(5) 此时a就是一维数组。创建多维数组：>>>a=array([[1,2,3],[4,5,6]]) 此时a就是二维数组获取数组的数据类型：Numpy数组一般是同质的，即数组中所有元素类型必须是一致的。>>>a.dtypedtype(int32)确定数组的维数：>>>aarray(0,1,2,3,4)>>>a.shape(5,)shape返回一个元组，元组的元素即为numpy数组中每一个维度上的大...

python3 利用xlrd,xlwt编写一个简单的数据分析程序【代码】

python3 利用xlrd,xlwt编写一个简单的数据分析程序：简单需求根据“待分析文件"中第一个sheet中的id值集合过滤第二个sheet中的对应列id的单元格值相等的行，并且将这些行输出到“分析结果文件”待分析文件-sheet1id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 待分析文件-sheet2id name other 1 xxxx 3 2 xxxx 4 3 xxxx 5 4 xxxx 6 5 xxxx 7 6 xxxx 8 7 xxxx 9 8 xxxx 10 9 xxxx 11 10 x...

今晚九点|如何使用 Python 分析 web 访问日志？【图】

主题：如何使用 Python 分析 Web 访问日志内容Python 基础字符串、字典、文件、时间Web 访问日志实战提问主讲师：KK多语言混搭工程师，热爱开源技术，喜欢GET新技能，5年 PHP、Python 项目开发经验，带领团队完成多个中、小型项目开发，对安全、云等多个领域富有浓厚兴趣，擅长于 WEB 安全开发、性能优化、分布式应用开发&设计等多方面，做事认真负责，乐于分享技能，现任 51Reboot.com Python 实战班讲师任何语言都有使用场景，只...

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

日期：2020.01.27博客期：135星期一　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）　　网站的相关热词来源...

python爬虫及结巴分词《攀登者》影评分析【代码】

《攀登者》影评爬取及分析0、项目结构其中simkai.ttf为字体文件，Windows查看系统自带的字体C:\Windows\Fonts一、爬取豆瓣影评数据# -*- coding: utf-8 -*- """爬取豆瓣影评""" import requests from lxml import etree import timeurl = "https://movie.douban.com/subject/30413052/comments?start=%d&limit=20&sort=new_score&status=P"#请求头 headers = {'Host': 'movie.douban.com', 'User-Agent': 'Mozilla/5.0 (Windows NT...

python int的源码分析【图】

在intobject.h中找到整数的定义Python的整数对象的数据实际保存在ob_ival中，是c中的long类型。PyObject_HEAD就应该是整数对象的描述了。从源码的描述中知道PyObject_HEAD定义了整数对象的初始化信息其中typedef struct _typeobject{}PyTypeObject，PyTypeObject可以被认为对象的最通用，最原始的类，被其他整数，字符串等对象继承使用。 PyAPI_DATA(PyTypeObject) PyInt_Type;，可以猜测，PyAPI_DATA就是整数对象类型继承PyTyp...

2.python数据结构的性能分析【代码】【图】

2.python数据结构的性能分析一.引言　　- 现在大家对大O 算法和不同函数之间的差异有了了解。本节的目标是告诉你 Python 列表和字典操作的大O 性能。然后我们将做一些基于时间的实验来说明每个数据结构的花销和使用这些数据结构的好处。重要的是了解这些数据结构的效率，因为它们是本博客实现其他数据结构所用到的基础模块。本节中，我们将不会说明为什么是这个性能。在后面的博文中，你将看到列表和字典一些可能的实现，以及性能...

Python 生成器与迭代器 yield 案例分析【代码】

前几天刚开始看 Python ，后因为项目突然到来，导致Python的学习搁置了几天。然后今天看回Python 发现 Yield 这个忽然想不起是干嘛用的了（所以，好记性不如烂笔头。）。然后只能花点时间回顾一下廖雪峰老师 Python前面的课程内容了并对廖老师的课程内容做了以下总结：迭代器（iter）：迭代器是访问集合元素的一种方式。迭代器的对象从集合的第一个元素开始访问，直到所有的元素被访问结束。迭代器只能往前不会退后。不过也没...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 探讨两个开源的 Python 包，进行社交媒体情感分析入门

探讨两个开源的 Python 包，进行社交媒体情感分析入门

内容导读

内容图文

自然语言和文本数据

数据前景和挑战

词袋

词嵌入

Word2vec

GloVe

创建和使用词嵌入

可用的工具选项

SpaCy

vaderSentiment

内容总结

内容备注

内容手机端

【探讨两个开源的 Python 包，进行社交媒体情感分析入门】教程文章相关的互联网学习教程文章

Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析

数值分析实验之线性方程组的迭代求解(Python实现)【代码】【图】

python3 爬虫5--分析Robots协议

（一）Python入门-3序列：01列表-特点-内存分析【图】

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

数据分析：PYTHON可以预测新冠病毒得病人数吗？

Python遥感数据主成分分析【代码】【图】

python数据分析之NUMPY基础01

python3 利用xlrd,xlwt编写一个简单的数据分析程序【代码】

今晚九点|如何使用 Python 分析 web 访问日志？【图】

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

python爬虫及结巴分词《攀登者》影评分析【代码】

python int的源码分析【图】

2.python数据结构的性能分析【代码】【图】

Python 生成器与迭代器 yield 案例分析【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程