RDD练习：词频统计

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了RDD练习：词频统计，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2122字，纯文字阅读大概需要4分钟。

内容图文

一、词频统计：

1.读文本文件生成RDD lines

2.将一行一行的文本分割成单词 words flatmap()

3.全部转换为小写 lower()

4.去掉长度小于3的单词 filter()

5.去掉停用词

6.转换成键值对 map()

7.统计词频 reduceByKey()

二、学生课程分数 groupByKey()

-- 按课程汇总全总学生和分数

1. 分解出字段 map()

2. 生成键值对 map()

3. 按键分组

4. 输出汇总结果

三、学生课程分数 reduceByKey()

-- 每门课程的选修人数

-- 每个学生的选修课程数

1.读文本文件生成RDD lines

lines = sc.textFile('file:///home/hadoop/word.txt')

lines.collect()

RDD练习：词频统计 - 文章图片

2.将一行一行的文本分割成单词 words

words=lines.flatMap(lambda line:line.split())

words.collect()

RDD练习：词频统计 - 文章图片

3.全部转换为小写

words=lines.flatMap(lambda line:line.lower().split())

words.collect()

RDD练习：词频统计 - 文章图片

4.去掉长度小于3的单词

words=lines.flatMap(lambda line:line.split()).filter(lambda line:len(line)>3)

words.collect()

RDD练习：词频统计 - 文章图片

5.去掉停用词

1.准备停用词文本：

lines = sc.textFile('file:///home/hadoop/stopwords.txt')
stop = lines.flatMap(lambda line : line.split()).collect()

stop

RDD练习：词频统计 - 文章图片

2.去除停用词：

lines=sc.textFile("file:///home/hadoop/word.txt")

words=lines.flatMap(lambda line:line.lower().split()).filter(lambda word:word not in stop)

words
words.collect()

RDD练习：词频统计 - 文章图片

6.转换成键值对 map()

wordskv=words.map(lambda word:(word.lower(),1))

wordskv.collect()

RDD练习：词频统计 - 文章图片

7.统计词频 reduceByKey()

wordskv.reduceByKey(lambda a,b:a+b).collect()

RDD练习：词频统计 - 文章图片

二、学生课程分数 groupByKey()

-- 按课程汇总全总学生和分数

1. 分解出字段 map()

2. 生成键值对 map()

3. 按键分组

4. 输出汇总结果

1.读大学计算机系的成绩数据集生成RDD

lines = sc.textFile('file:///home/hadoop/chapter4-data01.txt')

lines.take(6)

RDD练习：词频统计 - 文章图片

2.按科目汇总学生和分数

groupByCourse=lines.map(lambda line:line.split(',')).map(lambda line:(line[1],(line[0],line[2]))).groupByKey()

groupByCourse.first()

for i in groupByCourse.first()[1]:
... print(i)

RDD练习：词频统计 - 文章图片

三、学生课程分数 reduceByKey()

-- 每门课程的选修人数

lines=sc.textFile('file:///home/hadoop/chapter4-data01.txt')

reduceByClass=lines.map(lambda line:line.split(',')). map(lambda line:(line[1],1))

reduceByClass.reduceByKey(lambda a,b:a+b).collect()

RDD练习：词频统计 - 文章图片

-- 每个学生的选修课程数

reduceByName=lines.map(lambda line:line.split(',')).map(lambda line:(line[0],1))

reduceByName.reduceByKey(lambda a,b:a+b).collect()

RDD练习：词频统计 - 文章图片

内容总结

以上是互联网集市为您收集整理的RDD练习：词频统计全部内容，希望文章能够帮你解决RDD练习：词频统计所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1019227.html

来源：【匿名】

【上一篇】break、continue、goto区别【下一篇】关于IE的RegExp.exec的问题

更多 ►

【RDD练习：词频统计】教程文章相关的互联网学习教程文章

一、词频统计： #1.读文本文件生成RDD lines #2.将一行一行的文本分割成单词 words flatmap() #3.全部转换为小写 lower() #4.去掉长度小于3的单词 filter() #5.去掉停用词 #6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分数 groupByKey() -- 按课程汇总全总学生和分数 1. 分解出字段 map() 2. 生成键值对 map() 3. 按键分组 groupByKey() 4. 输出汇总结果 for i in <>:

hdu 1251 统计难题 (字典树入门题）【代码】

1/*******************************************************2题目：统计难题 (hdu 1251)3链接: http://acm.hdu.edu.cn/showproblem.php?pid=1251 4算法：字典树5提示：这题压要用c++提交,G++会超内存6*******************************************************/ 7 #include<cstdio>8 #include<cstring>9 #include<algorithm> 10 #include<iostream> 11usingnamespace std; 12char s[11]; 13 typedef struct Node ...

根据dba_hist_osstat统计CPU占用情况【代码】

.114.1:1521/dzgddb> select * from DBA_HIST_OSSTAT_NAME;DBID STAT_ID STAT_NAME --------------- --------------- ----------------------------------------------------------------3352298469 0 NUM_CPUS3352298469 1 IDLE_TIME3352298469 2 BUSY_TIME3352298469 3 USER_TIME3352298469 4 SYS_TIME3352298469 5 IOWAIT_TIME33...

用SQL统计每分钟的访问量

count(1),to_char(r.datelastmaint, ‘yyyy-mm-dd hh24:mi‘),sum(abs(r.tranamt))from deprtxn rgroup by to_char(r.datelastmaint, ‘yyyy-mm-dd hh24:mi‘); 用SQL统计每分钟的访问量标签：div 意思 font ast abs weight style group nbsp 本文系统来源：http://www.cnblogs.com/heben/p/7055023.html

新版白话空间统计（28）核函数：密度图跳变的解决方法【图】

前文再续，书接上一回……上一次我们讲了，只要做密度聚合，不管怎么去分你的尺度，都有可能产生断崖式的变化，那么有没有一种方法，让我们能够尽量避免断崖式的变化呢？最简单的就是滑动平均了：把原始数据集中的每个点当作连续的分布于一个范围内的值，然后把重叠的部分累加起来；并且鉴于全部的值加起来，要等于原始值。如下：我们把每个点以均匀对称的方式，让它在5个单位上平滑。5个原始点的分配，每个点滑动平均5个单位，也就...

哈密统计年鉴2019

《哈密统计年鉴2019》全书收录了全市和各县(市)区经济、社会、科技各方面大量的统计资料,历史重要年份和近几年的主要统计数据。内容包括即:1、综合、国民经济核算;2、人口、劳动工资;3、农业;4、工业;5、固定资产投资、房地产开发投资、建筑业;6、批发和零售、对外贸易、旅游;7、能源;8、交通、邮电、服务业;9、财政、金融、税收;10、文教、卫生、体育;11、物价指数;12、城乡居民收入和支出;13、市政、气象、资源;14、妇女儿童、科...

SparkRdd实现单词统计源码分析【代码】

SparkRdd实现单词统计源码分析 1 手写单词统计 //设置任务名字 local本地模式 val conf=new SparkConf().setAppName("WC").setMaster("local") //通向spark集群的入口 val sc =new SparkContext(conf) // sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile(args(1)) 2 本地Debug调试信息 3 本地debug调试 (1) MapPartitionsRDD[7] at sortBy at SparkWordCou...

05 RDD练习：词频统计【图】

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) words=lines.flatMap(lambda line:line.split()) words.foreach(print) 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 wordsxx=lines.map(lambda word:word.lower()) wordsxx.foreach(print) word=words.filter(lam...

SQL连表查询并统计数量

SELECT count(1) AS matCount,CS.CS_DBID,CS.CS_SHOP_NAME FROM PROJECT_PLAN_REQ_DETAIL AS PPRD INNER JOIN GOODS_INFO AS GI ON PPRD.PLAN_MAT_CODE = GI.GOODS_MAT_CODE INNER JOIN COMP_SHOP AS CS ON GI.CS_DBID = CS.CS_DBID WHERE PPRD.PLAN_PURCHASE_ID = ‘7cd13f026f794d4ba954b7c73901782c‘ GROUP BY CS.CS_DBID,CS.CS_SHOP_NAMESQL连表查询并统计数量标签：sel group detail ...

FPGA统计摄像头输出-基于MD9T112【图】

FPGA HDL源程序FPGA统计摄像头的输出像素，窗口尺寸等等//---------------------------------------------------------------------------- // user_logic.v - module //---------------------------------------------------------------------------- // // *************************************************************************** // ** Copyright (c) 1995-2012 Xilinx, Inc. All rights reserved. ** // *...

OPENVIDU实现网络质量检测统计【图】

1.前言在WebRTC中，我们需要对当前的音视频情况进行监控，便于对音视频质量有一个了解，同时可以用来分析定位音视频卡顿模糊等问题。WebRTC提供了一个标准的解决方案：标准详情,基于此标准Kurento也提供了一套实现方案，接下来就来具体介绍一下。 2. 序列图依照上述时序图openvidu这块步骤分为2步：第一步创建媒体通道时开启WEBRTC统计信息：pipeline.setLatencyStats(true); 第二步端点调用getStats方法并处理返回Map类型的数据，...

039 实例9-基本统计值计算【代码】

目录一、"基本统计值计算"问题分析1.1 问题分析二、"基本统计值计算"实例讲解2.1 基本统计值计算三、"基本统计值计算"举一反三3.1 技术能力扩展一、"基本统计值计算"问题分析1.1 问题分析基本统计值需求：给出一组数，对它们有个概要理解该怎么做呢？总个数、求和、平均值、方差、中位数…总个数：len()求和：for … in平均值：求和/总个数方差：各数据与平均数差的平方的和的平均数中位数：排序，然后…奇数找中间1个，偶数找中间...

微信小程序数据统计和错误统计的实现

某些情况下我们需要对小程序某些用户的行为进行数据进行统计，比如统计某个页面的UV, PV等，统计某个功能的使用情况等。好让产品对于产品的整个功能有所了解。在网页里，我们很多人都用过谷歌统计，小程序里也有一些第三方数据统计的库, 比如腾讯的MTA等等。但是，第三方的数据统计库要么功能太简单，满足不了需求，要么就是要收费。（留下了贫穷的泪水。）等等，又不是你出钱，怕啥？贵一点就贵一点呀。嗯，说的没错。但是，...

《程序员的数学》第二册（概率统计）【图】

《程序员的数学》第二册（概率统计）《程序员的数学》第二册（概率统计）概率的定义概率的数学定义三扇门(蒙提霍尔问题)一一飞艇视角蒙提霍尔问题正确答案与常见错误以飞艇视角表述三元组( 0 ,F, P )一一上帝视角随机变量概率分布适于实际使用的简记方式多个随机变量之间的关系面积计算的预热联合概率与边缘概率条件概率贝叶斯公式独立性离散值的概率分布一些简单的例子二项分布期望值方差与标准差大数定律补充内容:条件期望与最...

数据库联表统计查询 Group by & INNER JOIN【图】

a.video_id, SUM(`is_play`) as total FROM `tab_video_info` as a INNER JOIN `tab_play_record` as b ON a.video_id = b.video_id GROUP BY a.video_id ORDER BY total DESC LIMIT 0 , 40;统计结果 INNER JOIN 语法： INNER JOIN 连接两个数据表的用法：SELECT * FROM 表1 INNER JOIN 表2 ON 表1.字段号=表2.字段号 INNER JOIN 连接三个数据表的用法：SELECT * FROM (表1 INNER JOIN 表2 ON 表1.字段号=表2.字段号) INNER JOI...

首页 / 更多教程 / RDD练习：词频统计

RDD练习：词频统计

内容导读

内容图文

内容总结

内容备注

内容手机端

【RDD练习：词频统计】教程文章相关的互联网学习教程文章

05 RDD练习：词频统计，学习课程分数【图】

hdu 1251 统计难题 (字典树入门题）【代码】

根据dba_hist_osstat统计CPU占用情况【代码】

用SQL统计每分钟的访问量

新版白话空间统计（28）核函数：密度图跳变的解决方法【图】

哈密统计年鉴2019

SparkRdd实现单词统计源码分析【代码】

05 RDD练习：词频统计【图】

SQL连表查询并统计数量

FPGA统计摄像头输出-基于MD9T112【图】

OPENVIDU实现网络质量检测统计【图】

039 实例9-基本统计值计算【代码】

微信小程序数据统计和错误统计的实现

《程序员的数学》第二册（概率统计）【图】

数据库联表统计查询 Group by & INNER JOIN【图】

更多教程 - 最新教程

更多教程 - 最热教程