首页 / JAVA / java-使用Map Reduce的最小最大计数

java-使用Map Reduce的最小最大计数

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java-使用Map Reduce的最小最大计数，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8323字，纯文字阅读大概需要12分钟。

内容图文

我开发了一个Map reduce应用程序,用于根据Donald Miner编写的书来确定用户的第一次和最后一次评论以及该用户的评论总数.

但是我的算法的问题是减速器.我已根据用户ID对评论进行了分组.我的测试数据包含两个用户ID,每个用户ID在不同的日期发布3条评论.因此共有6行.

因此,我的reducer输出应打印两条记录,每条记录分别显示用户的第一次和最后一次评论以及每个用户ID的总评论.

但是,我的减速器正在打印六个记录.有人可以指出以下代码有什么问题吗？

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.arjun.mapreduce.patterns.mapreducepatterns.MRDPUtils;

import com.sun.el.parser.ParseException;

public class MinMaxCount {

    public static class MinMaxCountMapper extends 
            Mapper<Object, Text, Text, MinMaxCountTuple> {

        private Text outuserId = new Text();
        private MinMaxCountTuple outTuple = new MinMaxCountTuple();

        private final static SimpleDateFormat sdf = 
                     new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSSS");

        @Override
        protected void map(Object key, Text value,
                org.apache.hadoop.mapreduce.Mapper.Context context)
                throws IOException, InterruptedException {

            Map<String, String> parsed = 
                     MRDPUtils.transformXMLtoMap(value.toString());

            String date = parsed.get("CreationDate");
            String userId = parsed.get("UserId");

            try {
                Date creationDate = sdf.parse(date);
                outTuple.setMin(creationDate);
                outTuple.setMax(creationDate);
            } catch (java.text.ParseException e) {
                System.err.println("Unable to parse Date in XML");
                System.exit(3);
            }

            outTuple.setCount(1);
            outuserId.set(userId);

            context.write(outuserId, outTuple);

        }

    }

    public static class MinMaxCountReducer extends 
            Reducer<Text, MinMaxCountTuple, Text, MinMaxCountTuple> {

        private MinMaxCountTuple result = new MinMaxCountTuple();


        protected void reduce(Text userId, Iterable<MinMaxCountTuple> values,
                org.apache.hadoop.mapreduce.Reducer.Context context)
                throws IOException, InterruptedException {

            result.setMin(null);
            result.setMax(null);
            result.setCount(0);
            int sum = 0;
            int count = 0;
            for(MinMaxCountTuple tuple: values )
            {
                if(result.getMin() == null || 
                        tuple.getMin().compareTo(result.getMin()) < 0) 
                {
                    result.setMin(tuple.getMin());
                }

                if(result.getMax() == null ||
                        tuple.getMax().compareTo(result.getMax()) > 0)  {
                    result.setMax(tuple.getMax());
                }

                System.err.println(count++);

                sum += tuple.getCount();
            }

            result.setCount(sum);
            context.write(userId, result);
        }

    }

    /**
     * @param args
     */
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String [] otherArgs = new GenericOptionsParser(conf, args)
                            .getRemainingArgs();
        if(otherArgs.length < 2 )
        {
            System.err.println("Usage MinMaxCout input output");
            System.exit(2);
        }


        Job job = new Job(conf, "Summarization min max count");
        job.setJarByClass(MinMaxCount.class);
        job.setMapperClass(MinMaxCountMapper.class);
        //job.setCombinerClass(MinMaxCountReducer.class);
        job.setReducerClass(MinMaxCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(MinMaxCountTuple.class);

        FileInputFormat.setInputPaths(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        boolean result = job.waitForCompletion(true);
        if(result)
        {
            System.exit(0);
        }else {
            System.exit(1);
        }

    }

}

Input: 
<row Id="8189677" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-07-30T07:29:33.343" UserId="831878" />
<row Id="8189677" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-08-01T07:29:33.343" UserId="831878" />
<row Id="8189677" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-08-02T07:29:33.343" UserId="831878" />
<row Id="8189678" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-06-30T07:29:33.343" UserId="931878" />
<row Id="8189678" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-07-01T07:29:33.343" UserId="931878" />
<row Id="8189678" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-08-02T07:29:33.343" UserId="931878" />

output file contents part-r-00000:

831878  2011-07-30T07:29:33.343 2011-07-30T07:29:33.343 1
831878  2011-08-01T07:29:33.343 2011-08-01T07:29:33.343 1
831878  2011-08-02T07:29:33.343 2011-08-02T07:29:33.343 1
931878  2011-06-30T07:29:33.343 2011-06-30T07:29:33.343 1
931878  2011-07-01T07:29:33.343 2011-07-01T07:29:33.343 1
931878  2011-08-02T07:29:33.343 2011-08-02T07:29:33.343 1

job submission output:


12/12/16 11:13:52 INFO input.FileInputFormat: Total input paths to process : 1
12/12/16 11:13:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
12/12/16 11:13:52 WARN snappy.LoadSnappy: Snappy native library not loaded
12/12/16 11:13:52 INFO mapred.JobClient: Running job: job_201212161107_0001
12/12/16 11:13:53 INFO mapred.JobClient:  map 0% reduce 0%
12/12/16 11:14:06 INFO mapred.JobClient:  map 100% reduce 0%
12/12/16 11:14:18 INFO mapred.JobClient:  map 100% reduce 100%
12/12/16 11:14:23 INFO mapred.JobClient: Job complete: job_201212161107_0001
12/12/16 11:14:23 INFO mapred.JobClient: Counters: 26
12/12/16 11:14:23 INFO mapred.JobClient:   Job Counters 
12/12/16 11:14:23 INFO mapred.JobClient:     Launched reduce tasks=1
12/12/16 11:14:23 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=12264
12/12/16 11:14:23 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
12/12/16 11:14:23 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
12/12/16 11:14:23 INFO mapred.JobClient:     Launched map tasks=1
12/12/16 11:14:23 INFO mapred.JobClient:     Data-local map tasks=1
12/12/16 11:14:23 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=10124
12/12/16 11:14:23 INFO mapred.JobClient:   File Output Format Counters 
12/12/16 11:14:23 INFO mapred.JobClient:     Bytes Written=342
12/12/16 11:14:23 INFO mapred.JobClient:   FileSystemCounters
12/12/16 11:14:23 INFO mapred.JobClient:     FILE_BYTES_READ=204
12/12/16 11:14:23 INFO mapred.JobClient:     HDFS_BYTES_READ=888
12/12/16 11:14:23 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=43479
12/12/16 11:14:23 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=342
12/12/16 11:14:23 INFO mapred.JobClient:   File Input Format Counters 
12/12/16 11:14:23 INFO mapred.JobClient:     Bytes Read=761
12/12/16 11:14:23 INFO mapred.JobClient:   Map-Reduce Framework
12/12/16 11:14:23 INFO mapred.JobClient:     Map output materialized bytes=204
12/12/16 11:14:23 INFO mapred.JobClient:     Map input records=6
12/12/16 11:14:23 INFO mapred.JobClient:     Reduce shuffle bytes=0
12/12/16 11:14:23 INFO mapred.JobClient:     Spilled Records=12
12/12/16 11:14:23 INFO mapred.JobClient:     Map output bytes=186
12/12/16 11:14:23 INFO mapred.JobClient:     Total committed heap usage (bytes)=269619200
12/12/16 11:14:23 INFO mapred.JobClient:     Combine input records=0
12/12/16 11:14:23 INFO mapred.JobClient:     SPLIT_RAW_BYTES=127
12/12/16 11:14:23 INFO mapred.JobClient:     Reduce input records=6
12/12/16 11:14:23 INFO mapred.JobClient:     Reduce input groups=2
12/12/16 11:14:23 INFO mapred.JobClient:     Combine output records=0
12/12/16 11:14:23 INFO mapred.JobClient:     Reduce output records=6
12/12/16 11:14:23 INFO mapred.JobClient:     Map output records=6

解决方法:

抓到了罪魁祸首,只需将您的reduce方法的签名更改为以下内容：

受保护的void reduce(文本userId,Iterable< MinMaxCountTuple>值,
上下文上下文)
引发IOException,InterruptedException {

基本上,您只需要具有Context而不是org.apache.hadoop.mapreduce.Reducer.Context

现在输出如下：

831878  2011-07-30T07:29:33.343 2011-08-02T07:29:33.343 3
931878  2011-06-30T07:29:33.343 2011-08-02T07:29:33.343 3

我为您在本地进行了测试,而这一更改就成功了.虽然这是一种奇怪的行为,但如果有人能阐明这一点,那就太好了.它与泛型有关.当使用org.apache.hadoop.mapreduce.Reducer.Context时,它表示：

"Reducer.Context is a raw type. References to generic type Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>.Context should be parameterized"

但是当只使用“上下文”时,没关系.

内容总结

以上是互联网集市为您收集整理的java-使用Map Reduce的最小最大计数全部内容，希望文章能够帮你解决java-使用Map Reduce的最小最大计数所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/675537.html

来源：【匿名】

【上一篇】Java编译时界面更改【下一篇】JAVA/JSP学习系列之五

更多 ►

【java-使用Map Reduce的最小最大计数】教程文章相关的互联网学习教程文章

ArcGIS API for JavaScript 入门教程[5] 再讲数据——Map类之底图与高程【代码】【图】

【回顾】前4篇交代了JsAPI的背景、资源如何获取，简介了数据与视图分离的概念与实现，剖析了页面的大骨架。这篇开始，讲Map类。转载注明出处，博客园/CSDN/B站/知乎：秋意正寒目录：https://www.cnblogs.com/onsummer/p/9080204.html1. Map类的属性与方法Map类继承自Accessor，有子类WebMap , WebScene。这玩意儿是什么？通俗说，Map就是一张地图，它属于数据部分，需要用视图展示它。视图，在jsAPI中，就是View，它负责把Map描绘出...

Java分享笔记：使用keySet方法获取Map集合中的元素【代码】

1/*---------------------------2Map集合中利用keySet方法获取所有的元素值：3....keySet方法：将Map中的所有key值存入到Set集合中，4....利用Set集合提供的迭代器获取到每一个key值，再通过key值获得相应的value值5----------------------------*/ 6 7package pack03;8 9import java.util.*; 1011publicclass MapDemo { 12publicstaticvoid main(String[] args) { 1314 Map<String, String> ma = new HashMap<String, Str...

java开发中如何选择Set、List、Map、数组

---我不生产代码，我只是代码的搬运工。在JAVA的util包中有两个所有集合的父接口Collection和Map,它们的父子关系： java.util +Collection 这个接口extends自 --java.lang.Iterable接口 +List 接口 -ArrayList 类 -LinkedList 类 -Vector 类此类是实现同步的 +Queue 接口 +不常用，在此不表. +Set 接口 ...

Java基础知识强化之IO流笔记66：Properties的概述和使用（作为Map集合使用）【代码】【图】

1. Properties的概述 Properties：属性集合类。是一个可以和IO流相结合使用的集合类。Properties 可保存在流中或从流中加载。属性列表中每个键及其对应值都是一个字符串。Properties是Hashtable的子类，说明是一个Map集合。 2. Properties作为Map集合使用 1package cn.itcast_08;2 3import java.util.Properties;4import java.util.Set;5 6/* 7 * Properties:属性集合类。是一个可以和IO流相结合使用的集合类。8 * Properties 可保...

Java提高篇（三三）-----Map总结【图】

在前面LZ具体介绍了HashMap、HashTable、TreeMap的实现方法，从数据结构、实现原理、源代码分析三个方面进行阐述，对这个三个类应该有了比較清晰的了解,以下LZ就Map做一个简单的总结。推荐阅读： java提高篇（二三）—–HashMap java提高篇（二五）—–HashTable Java提高篇（二六）-----hashCode Java提高篇（二七）—–TreeMap一、Map概述首先先看Map的结构示意图 Map：“键...

java Map 怎么遍历

java中遍历MAP的几种方法 Java代码 Map<String,String> map=new HashMap<String,String>(); map.put("username", "qq"); map.put("passWord", "123"); map.put("userID", "1"); map.put("email", "qq@qq.com"); Map<String,String> map=new HashMap<String,String>(); map.put("username", "qq"); map.put("passWord", "123"); map.put("userID", "1"); map.put("email", "qq@qq.com"); 第一种用for循环 Java代码 fo...

java8 stream中的map误区【代码】

场景:通过stream将 List<A>转化为List 。其中B类中存在某个方法 public B fromA(A a);具体代码如下package cn.zwy;import java.util.ArrayList; import java.util.List; import java.util.stream.Collectors;publicclass StreamTest {publicstaticvoid main(String[] args) {List<String> names = new ArrayList<>();names.add("zhou");names.add("wen");List<User> users = names.stream().map(new User()::setName).collect(...

java初识集合(list,set,map)【代码】

java的集合有三类：list，set，map。list和set继承了collection接口。区别（list可以添加重复对象，且按照索引位置排序；set没有这两种特点）。map是通过key操作里面的value，操作的是成对的对象。put放入对象，get取出对象。另外：colletion没有随机访问的get()方法，因为collection还包括set，而set有自己的内部顺序。所以，要检查collection元素，必须使用iterator对象。1、list中有ArrayList（类似数组形式进行存储）和Linked...

java.util.Map源码分析【代码】

/*** An object that maps keys to values. A map cannot contain duplicate keys;* each key can map to at most one value.** This interface takes the place of the <tt>Dictionary</tt> class, which* was a totally abstract class rather than an interface.** The <tt>Map</tt> interface provides three collection views, which* allow a map‘s contents to be viewed as a set of keys, collection of v...

java中map有哪些

java为数据结构中的映射定义了一个接口java.util.Map;它有四个实现类,分别是HashMap Hashtable LinkedHashMap 和TreeMap Map主要用于存储健值对，根据键得到值，因此不允许键重复(重复了覆盖了),但允许值重复。 Hashmap 是一个最常用的Map,它根据键的HashCode 值存储数据,根据键可以直接获取它的值，具有很快的访问速度，遍历时，取得数据的顺序是完全随机的。HashMap最多只允许一条记录的键为Null;允许多条记录的值为 Null;HashMa...

JavaScript的Map和Set以及iterable【代码】

MapJavaScript的默认对象可以视为其他语言的dictionary和map，键值对。但它的键必须为字符串，为了解决这个问题ES6引入了数据类型Map。Map也是一组键值对的结构，具有极快的查找速度。用Map实现通过名字快速查询成绩：var m = new Map([[‘Michael‘, 95], [‘Bob‘, 75], [‘Tracy‘, 85]]); m.get(‘Michael‘); // 95好处是无论数据有多大，查询速度不会变慢。另一种写法；var m = new Map(); // 空Map m.set(‘Adam‘, 67); //...

JavaBean,List,Map转成json格式【图】

Java代码 public class User { private String username; private String password; public String getUsername() { return username; } public void setUsername(String username) { this.username = username; } public String getPassword() { return password; } public void setPassword(String password) { this.password =...

Map实现java缓存机制的简单实例【代码】【图】

缓存是Java中主要的内容，主要目的是缓解项目访问数据库的压力以及提升访问数据的效率，以下是通过Map实现java缓存的功能，并没有用cache相关框架。一、缓存管理类 CacheMgr.java package com.henu.util;import java.util.Date; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.Map; import java.util.Set;/*** 缓存管理类* * @author Administrator* */publicclass CacheMgr {...

Java对Map集合进行排序【代码】

Java对Map集合进行排序实现 Comparator 接口，重写compare方法，完成自定义排序int compare(Object o1, Object o2) 返回一个基本类型的整型如果要按照升序排序,则o1 小于o2，返回-1（负数），相等返回0，01大于02返回1（正数）如果要按照降序排序,则o1 小于o2，返回1（正数），相等返回0，01大于02返回-1（负数）使用示例如下：import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import ...

JavaScript中的数组遍历forEach()与map()方法以及兼容写法【代码】

原文链接：https://www.cnblogs.com/jocyci/p/5508279.html 原理：高级浏览器支持forEach方法语法：forEach和map都支持2个参数：一个是回调函数（item,index,list）和上下文；forEach:用来遍历数组中的每一项；这个方法执行是没有返回值的，对原来数组也没有影响；数组中有几项，那么传递进去的匿名回调函数就需要执行几次；每一次执行匿名函数的时候，还给其传递了三个参数值：数组中的当前项item,当前项的索引index,原始数组inpu...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / java-使用Map Reduce的最小最大计数

java-使用Map Reduce的最小最大计数

内容导读

内容图文

内容总结

内容备注

内容手机端

【java-使用Map Reduce的最小最大计数】教程文章相关的互联网学习教程文章

ArcGIS API for JavaScript 入门教程[5] 再讲数据——Map类之底图与高程【代码】【图】

Java分享笔记：使用keySet方法获取Map集合中的元素【代码】

java开发中如何选择Set、List、Map、数组

Java基础知识强化之IO流笔记66：Properties的概述和使用（作为Map集合使用）【代码】【图】

Java提高篇（三三）-----Map总结【图】

java Map 怎么遍历

java8 stream中的map误区【代码】

java初识集合(list,set,map)【代码】

java.util.Map源码分析【代码】

java中map有哪些

JavaScript的Map和Set以及iterable【代码】

JavaBean,List,Map转成json格式【图】

Map实现java缓存机制的简单实例【代码】【图】

Java对Map集合进行排序【代码】

JavaScript中的数组遍历forEach()与map()方法以及兼容写法【代码】

JAVA - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程