首页 / 更多教程 / 电影数据集数据可视化分析
电影数据集数据可视化分析
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了电影数据集数据可视化分析,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1451字,纯文字阅读大概需要3分钟。
内容图文
![电影数据集数据可视化分析](/upload/InfoBanner/zyjiaocheng/1281/dbf3f70e6e0344f3b43924c792862d9b.jpg)
一、数据描述
1.1、数据集描述
movies数据框包含45456行,有共10列,有adult,belongs_to_collection,budget,genres,homepage等24个,对应每个电影的的一些特征。
type:类型
director:导演
country:国家
keyword:关键字
score:评分
belongs_to_collection:归属
popularity:声望
revenue:收入
vote_average:平均投票
vote_count:投票数
1.2、数据展示
1.3、 项目操作流程
1.4、导入数据
二、问题提出
(1)不同国家电影产量是否存在差异?若有,电影产量最大的是哪个国家,占多少份额?
(2)哪些国家制作的电影在平均水平上更倾向获得观众的高评分?
(3)电影的类型构成是怎么样的?电影占比较大的是哪些类型的电影?
(4)不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评?
三、数据清洗和预处理
处理完的表格:
四、各变量相关性数据分析与可视化
(1)、不同国家电影产量是否存在差异?若有,电影产量最大的是哪个国家,占多少份额? 数据显示,电影的产地可能不止一个国家,对于多产地的电影,对于其中任一产地国都不算一部严格意义上的电影,所以此项研究的范围仅限于单产地电影的分析。
(2)、哪些国家制作的电影在平均水平上更倾向获得观众的高评分?
(3)、电影的类型构成是怎么样的?电影占比较大的是哪些类型的电影?
在所有电影中,戏剧电影、喜剧电影、恐怖电影比较受制片人青睐,三种类型的市场份额依次递减。
(4)、不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评?
#先获取所有电影类型列表
genres_full_data=pd.Series(list_).value_counts().sort_values(ascending=False)
genres_full_data_=pd.DataFrame({"genres":genres_full_data.index
,"num":genres_full_data}).sort_values(by=["genres"]).drop("")
历史片、记录片、战争片的电影类型更倾向于获得观众的好评,其中,对于历史类型的电影,从图形上来说它的箱形较扁,说明这种系列的电影的得分较为集中,即历史片得高分得概率较大;而记录片电影的箱形较长,说明这种系列的电影相对于历史片而言,得分较为分散,存在高分电影,也存在得分不怎么高的电影,它的中位线更靠近四分之三分位线,高分部分的得分比低分部分的得分集中一些.
(5)、电影关键字-词云图
五、主要结论
(1)在电影制作数量上,美国以88%的比例排名第一;
(2)按电影评分平均分:巴基斯坦>阿根廷>爱尔兰;
(3)戏剧电影、喜剧电影、恐怖电影比较受制片人青睐;
(4)历史片、记录片、战争片的电影类型更倾向于获得观众的好评;
(5)演员出演数量上,Samuel L.Jackson主演的电影数量超过60部,排名第一;
(6)电影制作数量上,Steven Spielberg以27部排名第一。
以上就是围绕着关于电影数据集的若干问题展开的数据可视化分析全过程,后面有其他的分析方向,再补充吧。
原文:https://www.cnblogs.com/z-m-t/p/14901117.html
内容总结
以上是互联网集市为您收集整理的电影数据集数据可视化分析全部内容,希望文章能够帮你解决电影数据集数据可视化分析所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。