首页 / SCALA / javaApi,mapreduce,awk,scala四种方式实现词频统计

javaApi,mapreduce,awk,scala四种方式实现词频统计

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了javaApi,mapreduce,awk,scala四种方式实现词频统计，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6089字，纯文字阅读大概需要9分钟。

内容图文

awk方式实现词频统计：

方式一：
vi wordcount.awk
{
	for (i = 1; i <=NF;i++) //NF 表示的是浏览记录的域的个数 
		freq[$i]++
}
END{
		for(word in freq) //
			printf "%s%d\n",word,freq[word] //
}
运行：awk -f wordcount.awk words.txt;
----------------------------------
方式二：
运行方式二：
vi wordcount_awk.sh
#!/bin/sh
awk -F " " ‘{
  for (i = 1; i<=NF; i++)  
    freq[$i]++
}
END{
  for (word in freq)
    printf "%s%d\n",word,freq[word]
}‘ $1

chmod u+x wordcount_awk.sh
./wordcount_awk.sh words.txt
-----------------------------

NF 表示的是浏览记录的域的个数 
$NF 表示的最后一个Field（列），即输出最后一个字段的内容

[root@localhost SHELL]# free -m | grep buffers\/
-/+ buffers/cache:       1815       1859
[root@localhost SHELL]# free -m | grep buffers\/ | awk ‘{print $NF}‘
1859
[root@localhost SHELL]# free -m | grep buffers\/ | awk ‘{print NF}‘
4
[root@localhost SHELL]# 
--------------------------------
%x代表十六进制
%o是八进制
%d或%i代表十进制整数，
%c是字符
%s是字符串，
%f或%e是输入实数，小数或指数输入都可以
%ld是long double型
%%输入一个百分号。

　　javaApi方式实现词频统计：

            package
             cn.WordTongJi;


            import java.io.*;
import java.util.HashMap;
import java.util.Map;

/**
 * Created by Administrator on 2018/6/1 0001.
 */publicclass WordDemo {
    publicstaticvoid main(String[] args) throws IOException {
        //读取文件内容，获取文件对象
        BufferedReader br =new  BufferedReader(new FileReader("D:\\test\\aaa.txt"));
        //根据对象获取单词
        String nextLines="";
        
        Map<String,Integer> map = new HashMap<String,Integer>();
        while ((nextLines=br.readLine())!=null){
            //以空格拆分单词，获取到单词数组
            String[] data =nextLines.split(" ");
            //将单词放进Map中，利用for循环,遍历for(String word:data){
                //先在循环外定义一个hashmap
                //将单词放进map中
                //<单词，1>的形式
                map.put(word,1);
            }
        }
        //遍历map中的单词
        //KeySet():将Map中所有的键存入到set集合中for(String key:map.keySet()){
            //根据key值，计算key值对应的value值
            System.out.println(key+"----"+map.get(key));
        }
    }
}

mapreduce实现词频统计：

            package cn.bcqm1711.mr.day01;/**
 * Created by Administrator on 2018/5/2.
 */import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

import java.io.IOException;

/**
 * @author :YongKe.Pan
 * @Desc ：  自定义词频统计
 * @create 2018-05-02 9:44
 **/publicclass CustomWordCount {


    //MapTask阶段:默认情况下一个数据块对应一个split分片，一个分片对应一个MapTask
    //LongWritable, Text表示的是每一行的偏移量和每一行内容的数据类型
    //Text, IntWritable表示的是每一个map输出key/value的数据类型publicstaticclass WCMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        privatestaticfinal IntWritable one = new IntWritable(1);
        private Text word = new Text();


        //在开始业务代码之前调用一次        @Override
        protectedvoid setup(Context context) throws IOException, InterruptedException {

        }

        //编写业务逻辑代码，每一行调用一次这个map方法        @Override
        protectedvoid map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            //获取每一行的内容
            String line = value.toString();
            //拆分行获取单词
            String[] words = line.split(" ");
            for (String wd : words) {
                word.set(wd);
                //输出到本地磁盘:<单词,1>                context.write(word, one);
            }
        }

        //业务代码执行完成之后，最后调用一次cleanup        @Override
        protectedvoid cleanup(Context context) throws IOException, InterruptedException {

        }
    }

    //ReducerTask阶段
    //Text, IntWritable两个参数接收的是mapTask输出的key/value数据类型
    //Text, IntWritable ReducerTask阶段对接收到的数据业务处理之后输出到hdfs系统的key/value数据类型publicstaticclass WCReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //在开始执行Reduce业务代码之前调用一次        @Override
        protectedvoid setup(Context context) throws IOException, InterruptedException {

        }

        //key的hashcode码相同的被分配到一个Reduce        @Override
        protectedvoid reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable v : values) {
                sum += v.get();
            }
            //将聚合之后的单词及次数输出到HDFS
            context.write(key, new IntWritable(sum));
        }

        //处理完Reduce业务代码之后用一次        @Override
        protectedvoid cleanup(Context context) throws IOException, InterruptedException {

        }
    }

    //job作业的驱动部分publicstaticvoid main(String[] args) throws Exception {
        //获取配置对象
        Configuration conf = new Configuration();
        //CustomWordCount是作业的名称，可以在历史服务器上方便查看
        //Job job=new Job();
        Job job = Job.getInstance(conf, "CustomWordCount");
        //设置程序的入口类
        job.setJarByClass(CustomWordCount.class);

        //封装MapTask阶段
        job.setMapperClass(WCMapper.class);//设置map阶段的业务处理代码
        job.setMapOutputKeyClass(Text.class);//告诉mr框架map输出key的数据类型
        job.setMapOutputValueClass(IntWritable.class);//告诉mr框架，map输出value的数据类型
        //接收main方法的参数(在提交运行job时传入的参数:/words3.txt)
        FileInputFormat.addInputPath(job,new Path(args[0])); //告诉mr阶段要处理的文件路径

        //封装ReduceTask阶段
        job.setReducerClass(WCReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //将数据输出到hdfs系统的哪个文件(/out0502)
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        job.setPartitionerClass(HashPartitioner.class);

        job.setNumReduceTasks(2);
        //提交jobboolean isOk = job.waitForCompletion(true);
        System.exit(isOk ? 0 : 1);
    }
}

scala方式实现词频统计：

            package
             cn.qmScala.day04Scala


            /**
            
  * Created by Administrator on 2018/6/2 0002.
  
            */
            
object Demo15WordCount {
  val acc =true

  def main(args: Array[String]) {
    val data =Array("jin tian tian qi bu cuo xiang chu qu wan ")
    //拆分出单词.使用flatMap方法
    val words:Array[String]=data.flatMap(_.split(" "))
    //单词->(单词，1）的形式
    val word_one:Array[(String,Int)]=words.map((_,1))
    //分组 
    val groupByWord:Map[String,Array[(String,Int)]]=word_one.groupBy(_._1)
    //1.统计每个单词的个数
    val words_times:Map[String,Int]=groupByWord.mapValues(_.size)
    //for((k,v)<- words_times)println(s"$k,$v")
    //2.按单词出现的次数排序.将单词放进集合中，通过集合的方法来进行排序
    val wordsTimesList:List[(String,Int)]=words_times.toList
    //val wordCountTimeSort:List[(String,Int)]=wordsTimesList.sortBy(_._2)
    val wordCountTimeSort:List[(String,Int)]=wordsTimesList.sortBy(_._2)
  //  for((k,v)<- wordCountTimeSort)println(s"$k,$v")
    //3.求最大的前三个次数最多的单词.....scala的方法
    val wordCountTop3=wordCountTimeSort.take(3)
    for((k,v)<- wordCountTop3)println(s"$k,$v")
  }
}

原文：https://www.cnblogs.com/pingzizhuanshu/p/9125367.html

内容总结

以上是互联网集市为您收集整理的javaApi,mapreduce,awk,scala四种方式实现词频统计全部内容，希望文章能够帮你解决javaApi,mapreduce,awk,scala四种方式实现词频统计所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1052716.html

来源：【匿名】

【上一篇】scala Basic 第三课【下一篇】php中is_scalar如何判断变量是否是一个标量

更多 ►

【javaApi,mapreduce,awk,scala四种方式实现词频统计】教程文章相关的互联网学习教程文章

Scala中List、Map、Set各类型操作汇总【代码】

1、Scala中List、Map、Set等各类型函数操作汇总package com.scala.studyimport scala.collection.immutable.{Queue, TreeMap}import scala.collection.mutable/** * Created by HP-PC on 2016/5/26. */object ScalaCaseDemo { def main(args: Array[String]): Unit = { println(1 :: 2 :: List(3, 4)) //单个元素联合List：List(1, 2, 3, 4) //两个List进行联合成一个List：List(1, 2, 3, 4) println(List(1, 2) ::: L...

第88讲：Scala中使用For表达式实现map、flatMap、filter

今天我们来学习一下如何使用for表达式实现map、flatMap以及filter首先，我们来看下map。map的功能是，传入一个list，通过一个函数f，将list中的元素A变成元素B的过程。最后得到由B形成的列表。这个过程如果由for循环实现的话，如下操作：for(element <- list) yield f(element)接下来我们看下flatMap。flatMap的功能是，传入一个list，通过一个函数f，将list中的每个元素转换成一个列表，最后返回由这些列表中的所有元素构成的列表...

scala 编程思想 -map和reduce

package com.test1object Scala09_test10 { def main(args: Array[String]): Unit = { //作为对象的函数 //我们可以将方法以对象的形式作为参数给其他方法 //为了实现这一点，需要函数对象来打包方法，函数对象简称为函数 //例如foreach对于像vector这样的序列来说是一个非常有用的方法 //它接受参数，并将其应用到序列中每个元素上。 def show(n:Int):Unit = {println("> "+n)} val v:Vector[Int] = ...

6.1.2 Scala编程(特质trait、模式匹配和样例类、函数及抽象化、集合【Seq,Set,Map】/集合常用算子、与java集合转换、泛型参数、Akka)【代码】【图】

Scala编程文章目录 Scala编程第六部分特质第1节作为接口使用的特质第2节带有具体实现的特质第3节特质构造顺序第4节特质继承类第5节 Ordered和Ordering 第七部分模式匹配和样例类第1节模式匹配第2节字符和字符串匹配第3节守卫式匹配第4节匹配类型第5节匹配数组、元组、集合第6节样例类第7节 Option与模式匹配第八部分函数及抽象化第1节函数字面量及函数的定义第2节函数与方法的区别第3节匿名函数与占位符第4节高阶...

Scala与Java差异（五）之Map与Tuple【代码】

一、创建Map （1）创建Map // 创建一个不可变的Map val ages = Map("Leo" -> 30, "Jen" -> 25, "Jack" -> 23) ages("Leo") = 31 // 创建一个可变的Map val ages = scala.collection.mutable.Map("Leo" -> 30, "Jen" -> 25, "Jack" -> 23) ages("Leo") = 31 // 使用另外一种方式定义Map元素 val ages = Map(("Leo", 30), ("Jen", 25), ("Jack", 23)) // 创建一个空的HashMap val ages = new scala.collection.mutable.HashMap[Stri...

在未知的java.util.Map类型上强制Java到Scala显式类型转换【代码】

我最近使用过一些Java集合(熟悉JavaFX),最近我遇到了一个问题(here其他问题的结果).我需要的一个JavaFX接口只接受java.util.Map,等于Scala中的Map [_,_]. 我使用asInstanceOf进行转换,但是在计算之后,如果我想转换我的java.util.Map [_,_]来强制转换为真正的Scala类型安全Map [String,Double]我在我的所有程序中使用我该怎么做？我尝试了java.conversions._和asInstanceOf方法但没有成功.//return a java.util.Map val row: java...

java – scala：为什么scala允许使用Map / List / etc实现函数文字【代码】

我定义了这样的scala特征：trait Example {def func: Int => Int }编译器允许我通过以下方式实现它：class SomeClass extends Example {def func = Map(1->2, 3->4) }我可以用List替换Map它仍然可以工作.我的问题是：为什么？我不是将func声明为需要作为函数实现的函数文字吗？在更深层次上,scala的编译器如何检查函数签名？谢谢你！解决方法:Int => Int desugers to Function1 [Int,Int]. Map [K,V]和List [A]都将Function1 [A,...

Scala集合之Map【代码】【图】

Map 特质也包含了多个可变和不可变的具体实现类。生成键值对 scala> val t="a"->1 val t: (String, Int) = (a,1)scala> val t2=("a",1) val t2: (String, Int) = (a,1)scala> val t3=Tuple2("a",1) val t3: (String, Int) = (a,1) 初始化 val m =Map(t)根据键值查找值 apply get getOrElse withDefault withDefaultValue getOrElseUpdate scala> val m=Map("a"->1,"b"->2,"c"->3) val m: scala.collection.immutable.Map[String,I...

使用scala的map集合实现数据的排序【代码】【图】

我有4w条mysql数据，我想找出其中含有维也纳酒店的字段，再通过逆序排列用scala很容易实现 import java.sql.{Connection, DriverManager} import scala.:+ import scala.collection.mutable import scala.collection.mutable.{ArrayBuffer, ListBuffer}object test1 {def main(args: Array[String]): Unit = {// 访问本地MySQL服务器，通过3306端口访问mysql数据库val url = "jdbc:mysql://localhost:3306/user?useUnicode=true&c...

首页 / SCALA / javaApi,mapreduce,awk,scala四种方式实现词频统计

javaApi,mapreduce,awk,scala四种方式实现词频统计

内容导读

内容图文

内容总结

内容备注

内容手机端

【javaApi,mapreduce,awk,scala四种方式实现词频统计】教程文章相关的互联网学习教程文章

Scala中List、Map、Set各类型操作汇总【代码】

第88讲：Scala中使用For表达式实现map、flatMap、filter

scala 编程思想 -map和reduce

6.1.2 Scala编程(特质trait、模式匹配和样例类、函数及抽象化、集合【Seq,Set,Map】/集合常用算子、与java集合转换、泛型参数、Akka)【代码】【图】

Scala与Java差异（五）之Map与Tuple【代码】

在未知的java.util.Map类型上强制Java到Scala显式类型转换【代码】

java – scala：为什么scala允许使用Map / List / etc实现函数文字【代码】

Scala集合之Map【代码】【图】

使用scala的map集合实现数据的排序【代码】【图】

SCALA - 相关标签

MAP - 相关标签

统计 - 相关标签

SCALA - 技术教程分类

SCALA - 最新教程

SCALA - 最热教程