【大数据部落】R语言对推特twitter数据进行文本情感分析
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了【大数据部落】R语言对推特twitter数据进行文本情感分析,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3049字,纯文字阅读大概需要5分钟。
内容图文
![【大数据部落】R语言对推特twitter数据进行文本情感分析](/upload/InfoBanner/zyjiaocheng/983/44b6b098d9d34d6aa2c43cabff44f22f.jpg)
原文链接:http://tecdat.cn/?p=4012
我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。
找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本。
tweets <-tweets_df>%select(id, statusSource, text, created) %>%
extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))
对数据进行可视化计算不同时间对应的推特比例.。
并且对比安卓手机和苹果手机上的推特数量的区别。
从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20点左右发布推特。同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机。
然后查看推特中是否含有引用 ,并且对比不同平台上的数量。
ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="", y ="Number of tweets", fill ="")
从对比的结果来看,安卓手机没有被引用的比例要明显低于苹果手机。而安卓手机引用的数量要明显大于苹果手机。因此可以认为,苹果手机发的推特内容大多为原创,而安卓手机大多为引用。
然后查看推特中是否有链接或者图片,并且对比不同平台的情况。
ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="",
从上面的对比图中,我们可以看到安卓手机没有图片或者链接的情况要多于苹果,也就是说,使用苹果手机的用户在发推特的时候一般会发布照片或者链接。
同时可以看到安卓平台的用户把推特一般不使用图片或者链接,而苹果手机的用户恰恰相反。
spr <-tweet_picture_counts>%spread(source, n) %>%
mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]
然后我们对推特中的异常字符进行检测,并且进行删除然后找到推特中关键词,并且按照数量进行排序
reg <- "([^A-Za-z\\d#@']|'(?![A-Za-z\\d#@]))
"tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%m
utate(text =str_replace_all(text, "https://t.co/[A-Za-z\\d]+|&", "")) %>%
unnest_tokens(word, text, token ="regex", pattern = reg) %>%
filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))
tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%
mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b
对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。
通过特征词情感倾向分别计算不同平台的情感比,并且进行可视化。
在统计出不同情感倾向的词的数量之后,绘制他们的置信区间。从上面的图中可以看到,相比于苹果手机,安卓手机的负面情绪最多,其次是厌恶,然后是悲伤。表达积极的情感倾向很少。
然后我们对每个情感类别中出现的关键词的数量进行统计。
android_iphone_ratios %>%inner_join(nrc, by ="word") %>%
filter(!sentiment %in%c("positive", "negative")) %>%
mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%
从结果中我们可以看到,负面词大多出现在安卓手机上,而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量。
最受欢迎的见解
4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用
6.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析
内容总结
以上是互联网集市为您收集整理的【大数据部落】R语言对推特twitter数据进行文本情感分析全部内容,希望文章能够帮你解决【大数据部落】R语言对推特twitter数据进行文本情感分析所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。