首页 / JAVA / MapReduce Java练习

MapReduce Java练习

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了MapReduce Java练习，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8931字，纯文字阅读大概需要13分钟。

内容图文

MapReduce Java练习

练习用到的文件

链接：https://pan.baidu.com/s/1dgVA5y_cSXaNjj0BhfJvtA
提取码：48l1

log4j.properties文件：(这个之前貌似没有给吧)

链接：https://pan.baidu.com/s/1H3Rw1PqhptJC8cNPPixmUg
提取码：28fl

理解了一些基本概念，这里像之前安装eclipse时玩一个hello world，当然不是用MapReduce输出一个hello word，而是做一个简单的单词统计。

1. 首先添加pom依赖

    <dependencies>
        <dependency>
            <groupId>org.apache.zookeeper</groupId>
            <artifactId>zookeeper</artifactId>
            <version>3.4.9</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.4</version>
        </dependency>
        <!--练习MapReduce的时加入的pom依赖-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>2.7.4</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <!-- 用于对maven工程打jar包的插件 -->
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>2.4</version>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
                            <!--这里是主类的路径，可以选中主类的类名然后右键选择copy reference 复制路径-->
                            <mainClass>com.chinasofti.mapreducepractice.WordCountDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <!-- 指定java编译器的版本是1.8 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>
        </plugins>
    </build>

2. 编写Mapper类

package com.chinasofti.mapreducepractice;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 这里就是mapreduce程序  mapper阶段业务逻辑实现的类
 * Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
 * KEYIN：表示mapper数据输入的时候key的数据类型，在默认的读取数据组件下，叫InputFormat,它的行为是一行一行的读取待处理的数据
 *        读取一行，返回一行给我们的mr程序，这种情况下  keyin就表示每一行的起始偏移量  因此数据类型是Long
 * VALUEIN:表述mapper数据输入的时候value的数据类型，在默认的读取数据组件下 valuein就表示读取的这一行内容  因此数据类型是String
 * KEYOUT 表示mapper数据输出的时候key的数据类型  在本案例当中 输出的key是单词  因此数据类型是 String
 * VALUEOUT表示mapper数据输出的时候value的数据类型  在本案例当中 输出的key是单词的次数  因此数据类型是 Integer
 * 这里所说的数据类型String Long都是jdk自带的类型   在序列化的时候  效率低下 因此hadoop自己封装一套数据类型
 *   long---->LongWritable
 *   String-->Text
 *   Integer--->Intwritable
 *   null-->NullWritable
 *
 *   mapz这个类中包含了类似静态代码块的方法，
 *   即setup() 方法在整个mapper阶段开始前执行一次，
 *   cleanup() 方法在mapper阶段执行完后执行一次
 *   这里没有用到，为了避免后面用的时候忘记，标注一下。
 *
 *   常用的map方法：每传入一个键值对就调用一次。
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    /**
     *  这里就是mapper阶段具体的业务逻辑实现方法  该方法的调用取决于读取数据的组件有没有给mr传入数据
     *  如果有的话,每传入一个《k,v》对,该方法就会被调用一次
     * @param key
     * @param value
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿到传入进来的一行内容，把数据类型转化为String
        String line = value.toString();
        //将这一行内容按照分隔符进行一行内容的切割,切割成一个单词数组
        String[] words = line.split(" ");
        //遍历数组，每出现一个单词就标记一个数字1:<单词，1>，
        // 其实这里是可以将每行的相同的单词进行一个统计后再输出的，后续这里用combiner进行优化，所以就先这样吧
        for (String word:words){
            //使用mr程序的上下文context 把mapper阶段处理的数据发送出去
            context.write(new Text(word),new IntWritable(1));
        }
    }
}

3. 编写Reducer类

package com.chinasofti.mapreducepractice;


import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * 这里是MR程序 reducer阶段处理的类
 * KEYIN：就是reducer阶段输入的数据key类型，对应mapper的输出key类型  在本案例中  就是单词  Text
 * VALUEIN就是reducer阶段输入的数据value类型，对应mapper的输出value类型  在本案例中  就是单词次数  IntWritable
 * KEYOUT就是reducer阶段输出的数据key类型 在本案例中  就是单词  Text
 * VALUEOUTreducer阶段输出的数据value类型 在本案例中  就是单词的总次数  IntWritable
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    /**
     * 这里是reduce阶段具体业务类的实现方法
     * @param key
     * @param values
     * @param context
     * @throws IOException
     * @throws InterruptedException
     * reduce接收所有来自map阶段处理的数据之后，按照key的字典序进行排序
     * <hello,1><hadoop,1><spark,1><hadoop,1>
     * 排序后：
     * <hadoop,1><hadoop,1><hello,1><spark,1>
     *
     *按照key是否相同作为一组去调用reduce方法
     * 本方法的key就是这一组相同kv对的共同key
     * 把这一组所有的v作为一个迭代器传入我们的reduce方法
     *
     * <hadoop,[1,1]>
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //定义一个计数器
        int count = 0;
        //遍历一组迭代器，把每一个数量1累加起来就构成了单词的总次数
        for(IntWritable value:values){
            count +=value.get();
        }
        //把最终的结果输出
        context.write(key,new IntWritable(count));
    }
}

4.1 编写Driver类（这个是运行在HDFS集群）

5. 将编写好的程序打好jar包上传值Hadoop

运行在集群上，需要将编写好的代码打包上传到集群上。

我们之前在pom文件中有添加打jar包的插件，在IDEA上，有辅助我们打Jar包的插件，选择右边栏的maven，然后选择lifecycle中的package(双击)。

MapReduce Java练习 - 文章图片

6. 上传jar包到集群

在上传到集群之前我们需要将jar包上传到Linux系统上，使用之前安装好的插件lrzsz进行上传，

MapReduce Java练习 - 文章图片

在把jar包上传到Hadoop上运行之前，我们先把测试文件搞定。

先将测试文件上传到Linux系统上。这个测试文件我是复制Hadoop和Hive官网上的一段好去除符号。

现在文件到了Linux系统上，在我们将文件上传到Hadoop集群上之前，需要先建立输入文件夹。

使用命令：hadoop fs -mkdir -p /wordcount/input 命令在Hadoop上建立一个文件夹。通过在web窗口我们可以查看到建立好的文件夹（这里截图的时候我已经将文件上传上去了）。

MapReduce Java练习 - 文章图片

然后使用命令hadoop fs -put /root/Hadoop-introduction.txt /wordcount/input ，

hadoop fs -put /root/Hive-introduction.txt /wordcount/input 上传测试文件到Hadoop集群上的input文件夹。

还可以使用一条命令搞定：

hadoop fs -put Hadoop-introduction.txt Hive-introduction.txt /wordcount/input

注意这里上传了两个文件。结果见上图。

7. 在Hadoop上运行jar包

要在Hadoop集群上运行这个jar包，只需要在集群的任意一个节点上用Hadoop命令进行启动：

hadoop jar my-bigdata-practice-1.0-SNAPSHOT.jar

MapReduce Java练习 - 文章图片

当命令行再次出现时，表示运行结束

MapReduce Java练习 - 文章图片

8. 查看运行结果

结果我们可以在HDFS的web界面查看到，也可以直接在去cat查看。

MapReduce Java练习 - 文章图片

将结果集下载下来即可查看。（至于对错，额没这欲望去数单词，不过可以自己建一个小的数据集来测试）

MapReduce Java练习 - 文章图片

4.2 Driver类（这个是运行在本地，主要用于Debug）

运行在本地上的程序不需要打jar包，但是输出文件夹还是不能存在，否则会报错。

为了看到运行，我们引入log4j.properties 来打印日志。

package com.chinasofti.mapreducepractice;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 这个类就是mr程序运行时候的主类，本类中组装了一些程序运行时候所需要的信息
 * 比如：使用的是那个Mapper类  那个Reducer类  输入数据在那 输出数据在什么地方
 */
public class WordCountDriver {
    public static void main(String[] args) throws Exception {
        //通过Job来封装本次mr的相关信息
        Configuration conf = new Configuration();
//        conf.set("mapreduce.framework.name","local");
        Job job = Job.getInstance(conf);

        //指定本次mr job jar包运行主类
        job.setJarByClass(WordCountDriver.class);

        //指定本次mr 所用的mapper reducer类分别是什么
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //指定本次mr mapper阶段的输出  k  v类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //指定本次mr 最终输出的 k v类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

//        job.setNumReduceTasks(3);
        //如果业务有需求，就可以设置combiner组件
        job.setCombinerClass(WordCountReducer.class);


        //指定本次mr 输入的数据路径 和最终输出结果存放在什么位置
        FileInputFormat.setInputPaths(job,"D:\\Practice_File\\hadoop_practice\\MapReduce\\input");
        FileOutputFormat.setOutputPath(job,new Path("D:\\Practice_File\\hadoop_practice\\MapReduce\\output"));

//        job.submit();
        //提交程序  并且监控打印程序执行情况
        boolean b = job.waitForCompletion(true);
        System.exit(b?0:1);
    }
}

MapReduce Java练习 - 文章图片

默认的MapReduce配置文件在引入的jar包中。

内容总结

以上是互联网集市为您收集整理的MapReduce Java练习全部内容，希望文章能够帮你解决MapReduce Java练习所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/714530.html

来源：【匿名】

【上一篇】【java8新特性】日期和时间【下一篇】JAVA/JSP学习系列之五

更多 ►

【MapReduce Java练习】教程文章相关的互联网学习教程文章

Java基础知识强化之集合框架笔记53：Map集合之Map集合的遍历键值对对象找键和值【代码】【图】

1. Map集合的遍历（键值对对象找键和值）Map -- 夫妻对思路： A: 获取所有结婚证的集合 B: 遍历结婚证的集合，得到每一个结婚证 C: 根据结婚证获取丈夫和妻子转换： A: 获取所有键值对对象的集合 B: 遍历键值对对象的集合，得到每一个键值对对象 C: 根据键值对对象获取键和值 2. 代码示例： 1package cn.itcast_01;2 3import java.util.HashMap;4import java.util.Map;5import java.util.Set;6 7/* 8 * 看看我们开始的一个方...

java List<对象> 转 Set、Map（高级）【代码】

package com.demo.entity;publicclass Book {privateint id;private String name;public Book() {}public Book(int id, String name) {this.id = id;this.name = name;}publicint getId() {return id;}publicvoid setId(int id) {this.id = id;}public String getName() {return name;}publicvoid setName(String name) {this.name = name;}@Overridepublic String toString() {return "Book{" +"id=" + id +", name=‘" + name + ...

Java中 map.values转换为list或者string[]【代码】

@Testpublic void testMap2List() throws Exception{Map<String, String> map = new HashMap<String, String>();map.put("1", "AA");map.put("2", "BB");map.put("3", "CC");map.put("4", "DD");Collection<String> valueCollection = map.values();final int size = valueCollection.size();List<String> valueList = new ArrayList<String>(valueCollection);String[] valueArray = new String[size];map.values().toArray(value...

遍历Java Map【代码】

1//1, get both key and value 2for(Entry<Integer, String> entry : map.entrySet())3 {4 Integer key = entry.getKey();5 String value = entry.getValue();6 }7 8//2, get key or value 9for(Integer key : map.keySet()) 10 { 11 Integer k = key; 12 } 1314for(String value : map.values()) 15 { 16 String v = value; 17 } 181...

java-map之Hashtable【代码】

1.1 概述HashTable也是一个散列表，它存储的内容是键值对映射。HashTable继承于Dictionary，实现了Map、Cloneable、java.io.Serializable接口。HashTable的函数都是同步的，这意味着它是线程安全的。它的Key、Value都不可以为null。此外，HashTable中的映射不是有序的。1.2详解//为一个Entry[]数组类型，Entry代表了“拉链”的节点，每一个Entry代表了一个键值对，哈希表的"key-value键值对"都是存储在Entry数组中的。 private tra...

java并发容器(Map、List、BlockingQueue)

转发：大海巨浪 Java库本身就有多种线程安全的容器和同步工具，其中同步容器包括两部分：一个是Vector和Hashtable。另外还有JDK1.2中加入的同步包装类，这些类都是由Collections.synchronizedXXX工厂方法。同步容器都是线程安全的，但是对于复合操作，缺有些缺点：①　迭代：在查觉到容器在迭代开始以后被修改，会抛出一个未检查异常ConcurrentModificationException，为了避免这个异常，需要在迭代期间，持有一个容器锁。但是锁的...

java Map集合学习

学习语法还是从例子着手：FileDao fileDao=new FileBeanDaoImpl(); FileBean fileBean=new FileBean(); listBean=fileDao.getAll();Map<Integer,FileBean> tree=new HashMap<Integer,FileBean>();for(int i=0;i<listBean.size();i++){ Integer integer=listBean.get(i).getId();tree.put(integer, listBean.get(i)); }Set set=tree.entrySet();Iterator<Entry<Integer, FileBean>> it=tree.entrySet().iterator();while(it.ha...

Java中的集合(十三) 实现Map接口的Hashtable【代码】【图】

Java中的集合(十三) 实现Map接口的Hashtable一、Hashtable简介和HashMap一样，Hashtable采用“拉链法”实现一个哈希表，它存储的内容是键值对(key-value)映射。Hashtable 的实例有两个参数影响其性能：初始容量（11）和加载因子（0.75）。容量是哈希表中桶的数量，初始容量就是哈希表创建时的容量。注意，哈希表的状态为 open：在发生“哈希冲突”的情况下，单个桶会存储多个条目，这些条目必须按顺序搜索。加载因子是对哈希...

【java】itoo项目实战之大数据查询之使用 new map 优化hibernate之级联查询【图】

在我的上一篇博客《【java】itoo项目实战之hibernate 懒加载优化性能》中，我曾提到过学生数据有2万条，查询数据十分的慢，这是让人很受不了的事情，看着页面进度条一直转着圈圈，那种着急的感觉真的没法形容。最开始考虑着使用lazy 来优化，因为前台框架的原因，lazy 优化并没有起到什么左右，后来就想着有select new map 优化。我先来画画关于查询学生的级联树这个树的意思就是查询学生的时候它的深度是4级。在没有优化之前...

MessagePack Java Jackson Dataformat - Map 的序列化和反序列化

本测试方法，可以在 https://github.com/cwiki-us-demo/serialize-deserialize-demo-java/blob/master/src/test/java/com/insight/demo/serialize/MessagePackSerializer.java 中找到。我们需要定义测试需要的 MAP，定义 Map 的方法你可以在下面的测试程序中找到。/*** SerializationMap*/@Testpublic void testMessagePackSerializationMap() {byte[] bytes = new byte[0];String uuid_a = UUID.randomUUID().toString();String u...

Java语言利用Collections.sort对Map,List排序【代码】【图】

1.main方法包含TreeMap排序1，TreeMap排序2，HashMap排序，List<Integer>排序，List<Bean>排序，List<Map>排序package com.tao.test;import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.Map.Entry; import java.util.TreeMap;publicclass Sort {publicstaticvoid main(String[] args) {// TreeMa...

简单介绍Java容器（Collection和Map）

Java中常见的容器由两类，Collection和Map，本文就简单叙述下两者。（排版不是太好，等有时间看看怎么排）1.CollectionCollection是集合的根接口，所有集合都是继承该接口而来，其下有List和Set子类，根据官方文档描述，不同的子类对于有序性、重复性、null、线程同步都有不同的策略，下边说明时主要也会从这四个方面说明。List主要包含ArrayList，LinkedList ，Vector，Set下主要包含HashSet，LinkedHashSet，TreeSet。类型名称底...

从头认识java-15.7 Map（7）-TreeMap与LinkedHashMap

这一章节我们来讨论一下Map两个比较常用的实现：TreeMap与LinkedHashMap。1.TreeMap特性：按照key来排序package com.ray.ch14;import java.util.Comparator; import java.util.TreeMap;public class Test {public static void main(String[] args) {TreeMap<Integer, String> map = new TreeMap<Integer, String>();map.put(4, "4");map.put(2, "2");map.put(1, "1");System.out.println(map);System.out.println("---------------...

java实现Bean类和Map的相互转换

创建类PersonBean，有属性name，age和mN，生成get和set方法主方法map2Bean方法： Bean2map方法：测试结果：总结： javaBean与Map<String,Object>互转利用到了java的内省（ Introspector ）和反射（reflect）机制。其思路为：通过类 Introspector 来获取某个对象的 BeanInfo 信息，然后通过 BeanInfo 来获取属性的描述器 PropertyDescriptor，再利用属性描述器获取某个属性对应的 getter/setter 方法，然后通过反射机制来getter和...

JavaScript Array 对象方法every,some,filter,map归档【代码】

erery,都为真,返回真some,有一真,返回真filter,返回满足的真map,处理每一返回注意： every,some,filter,map不会对空数组进行检测。注意：every,some,filter,map不会改变原始数组。 array.every(function(currentValue,index,arr), thisValue) every() 方法用于检测数组所有元素是否都符合指定条件（通过函数提供）。every() 方法使用指定函数检测数组中的所有元素：如果数组中检测到有一个元素不满足，则整个表达式返回 false ，且...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / MapReduce Java练习

MapReduce Java练习

内容导读

内容图文

MapReduce Java练习

1. 首先添加pom依赖

2. 编写Mapper类

3. 编写Reducer类

4.1 编写Driver类（这个是运行在HDFS集群）

5. 将编写好的程序打好jar包上传值Hadoop

6. 上传jar包到集群

7. 在Hadoop上运行jar包

8. 查看运行结果

4.2 Driver类（这个是运行在本地，主要用于Debug）

内容总结

内容备注

内容手机端

【MapReduce Java练习】教程文章相关的互联网学习教程文章

Java基础知识强化之集合框架笔记53：Map集合之Map集合的遍历键值对对象找键和值【代码】【图】

java List<对象> 转 Set、Map（高级）【代码】

Java中 map.values转换为list或者string[]【代码】

遍历Java Map【代码】

java-map之Hashtable【代码】

java并发容器(Map、List、BlockingQueue)

java Map集合学习

Java中的集合(十三) 实现Map接口的Hashtable【代码】【图】

【java】itoo项目实战之大数据查询之使用 new map 优化hibernate之级联查询【图】

MessagePack Java Jackson Dataformat - Map 的序列化和反序列化

Java语言利用Collections.sort对Map,List排序【代码】【图】

简单介绍Java容器（Collection和Map）

从头认识java-15.7 Map（7）-TreeMap与LinkedHashMap

java实现Bean类和Map的相互转换

JavaScript Array 对象方法every,some,filter,map归档【代码】

JAVA - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程