首页 / MYSQL / MapReduce的基本内容介绍（附代码）

MapReduce的基本内容介绍（附代码）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了MapReduce的基本内容介绍（附代码），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3792字，纯文字阅读大概需要6分钟。

内容图文

本篇文章给大家带来的内容是关于MapReduce的基本内容介绍（附代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

1、WordCount程序

1.1 WordCount源程序

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {
    public WordCount() {
    }
     public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        if(otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class); 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
        public TokenizerMapper() {
        }
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString()); 
            while(itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
        }
    }
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
        public IntSumReducer() {
        }
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int sum = 0;
            IntWritable val;
            for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
                val = (IntWritable)i$.next();
            }
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
}

1.2 运行程序，Run As->Java Applicatiion

1.3 编译打包程序，产生Jar文件

MapReduce的基本内容介绍（附代码） - 文章图片

2 运行程序

2.1 建立要统计词频的文本文件

wordfile1.txt

Spark Hadoop

Big Data

wordfile2.txt

Spark Hadoop

Big Cloud

2.2 启动hdfs，新建input文件夹，上传词频文件

cd /usr/local/hadoop/

./sbin/start-dfs.sh

./bin/hadoop fs -mkdir input

./bin/hadoop fs -put /home/hadoop/wordfile1.txt input

./bin/hadoop fs -put /home/hadoop/wordfile2.txt input

2.3 查看已上传的词频文件：

hadoop@dblab-VirtualBox:/usr/local/hadoop$ ./bin/hadoop fs -ls .
Found 2 items
drwxr-xr-x - hadoop supergroup 0 2019-02-11 15:40 input
-rw-r--r-- 1 hadoop supergroup 5 2019-02-10 20:22 test.txt
hadoop@dblab-VirtualBox:/usr/local/hadoop$ ./bin/hadoop fs -ls ./input
Found 2 items
-rw-r--r-- 1 hadoop supergroup 27 2019-02-11 15:40 input/wordfile1.txt
-rw-r--r-- 1 hadoop supergroup 29 2019-02-11 15:40 input/wordfile2.txt

2.4 运行WordCount

./bin/hadoop jar /home/hadoop/WordCount.jar input output

屏幕上会输入大段信息

然后可以查看运行结果：

hadoop@dblab-VirtualBox:/usr/local/hadoop$ ./bin/hadoop fs -cat output/*
Hadoop 2
Spark 2

以上就是MapReduce的基本内容介绍（附代码）的详细内容，更多请关注Gxl网其它相关文章！

内容总结

以上是互联网集市为您收集整理的MapReduce的基本内容介绍（附代码）全部内容，希望文章能够帮你解决MapReduce的基本内容介绍（附代码）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/536455.html

来源：【匿名】

【上一篇】mysql集群压测的详细介绍【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【MapReduce的基本内容介绍（附代码）】教程文章相关的互联网学习教程文章

解析MySQL binlog --（4）TABLE_MAP_EVENT【代码】【图】

Hadoop:一个目录下的数据只由一个map处理

有这么个需求：一个目录下的数据只能由一个map来处理。如果多个map处理了同一个目录下的数据会导致数据错乱。刚开始google了下，以为网上都有现成的InputFormat，找到的答案类似我之前写的 mapreduce job让一个文件只由一个map来处理。或者是把目录写在文有这么个需求：一个目录下的数据只能由一个map来处理。如果多个map处理了同一个目录下的数据会导致数据错乱。刚开始google了下，以为网上都有现成的InputFormat，找到的答案...

Hadoop的Map-sidejoin和Reduce-sidejoin【图】

Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，key是用户id，value是用户姓名等等个人信息；dataset B是关于用户交易记录的，key是用 Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，k...

如何在Hadoop中控制map的个数

转载自：如何在hadoop中控制map的个数hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还转载自：如何在hadoop中控制map的个数 hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是...

eclipse中开发Hadoop2.x的Map/Reduce项目【图】

本文演示如何在Eclipse中开发一个Map/Reduce项目： 1、环境说明 Hadoop2.2.0 Eclipse?Juno SR2 Hadoop2.x-eclipse-plugin 插件的编译安装配置的过程参考：http://www.micmiu.com/bigdata/hadoop/hadoop2-x-eclipse-plugin-build-install/ 2、新建MR工程依次本文演示如何在Eclipse中开发一个Map/Reduce项目： 1、环境说明 Hadoop2.2.0Eclipse?Juno SR2Hadoop2.x-eclipse-plugin 插件的编译安装配置的过程参考：http://www.micmiu.c...

hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术【图】

纯干活：通过WourdCount程序示例：详细讲解MapReduce之BlockSplitShuffleMapReduce的区别及数据处理流程。 Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分。要想了解MR，Shuffle是必须要理解的。了解Shuffle的过程，更有利于我们在对MapReduce job纯干活：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分。要...

stl中的map、set、multimap、multiset，兼谈OceanBase造轮子

终于有机会有动力有能力看jjhou的《STL源码解析》了。采取快速翻阅模式，有望看完整本。 map和set的底层机制都是RB-Tree（红黑树），插入和查找都是O(lgN)的复杂度。map、set以前听说过，但从来不用，因为不了解，不知道背后是什么。通过读这本书了解到了其终于有机会有动力有能力看jjhou的《STL源码解析》了。采取快速翻阅模式，有望看完整本。 map和set的底层机制都是RB-Tree（红黑树），插入和查找都是O(lgN)的复杂度。map、set...

cocos2dx的模板容器简单使用（Vector,Map,Value）

在cocos2dxv3.0beta之前存在顺序性容器cocos2d::CCArray，和cocos2d::CCDictionary。但是在新版本之后这两个容器都将被cocos2d::VectorT和cocos2d::Mapk,V代替。 1. cocos2d::VectorT cocos2d::VectorT是一个封装了动态大小的数组的顺序型容器。它的元素是在cocos2dxv3.0beta之前存在顺序性容器cocos2d::CCArray，和cocos2d::CCDictionary。但是在新版本之后这两个容器都将被cocos2d::Vector和cocos2d::Map<k,V>代替。1. co...

Map/Reduce开发环境【图】

最近，在Mac上折腾了下，想搭建一个hadoop的测试环境，用于写一些Map/Reduce的sample，下面就先将搭建环境的过程记录下来。 1. hadoop 单机搭建 1.1 确认java环境已经安装在terminal里再次键入java -version，出现如下信息： 1.2 安装SSH 首先，输入 ssh-ke 最近，在Mac上折腾了下，想搭建一个hadoop的测试环境，用于写一些Map/Reduce的sample，下面就先将搭建环境的过程记录下来。1. hadoop 单机搭建1.1 确认java环境已经安...

第一个Map/Reduce程序【图】

当在MAC上搭建好开发环境之后，第一件事肯定是找一个hello world程序练习下。而hadoop世界的hello word程序就是下面的这个Word Count程序。 1. 新建项目步骤：FileNewOtherMap/Reduce Project 项目名可以随便取，如MapReduceSample。然后新建类WordCount.ja当在MAC上搭建好开发环境之后，第一件事肯定是找一个hello world程序练习下。而hadoop世界的hello word程序就是下面的这个Word Count程序。1. 新建项目步骤：File–>New–>...

ceilometer的map_reduce机制

Map/Reduce是一个聚合工具。比如SQL和mongodb的group（by），countdistinct等都是聚合命令。 Map/Reduce其实是一个分布式计算的思想的实现的软件框架。就是你遵循这个框架的规范，编写上层代码可以实现你的分布式计算，并能把所有计算结果聚合到一起得到最终Map/Reduce是一个聚合工具。比如SQL和mongodb的group（by），countdistinct等都是聚合命令。Map/Reduce其实是一个分布式计算的思想的实现的软件框架。就是你遵循这个框架的规...

【redis，1】java操作redis：将string、list、map、自定义的对象

一、操作string 、list 、map 对象1、引入jar：jedis-2.1.0.jar 2、代码/** * @param args */ public static void main(String[] args) { //连接redis服务 Jedis jedis = new Jedis(192.168.88.15,6379); //密码验证-如果你没有设置redis密码可不验证即可使用一、操作string 、list 、map 对象1、引入jar：jedis-2.1.0.jar2、代码/*** @param args*/public static void main(String[] args) {//连接redis服务Jedis jedis = new Jed...

Irrlicht学习备忘录2Quake3Map【图】

2Quake3Map 官方代码 ($sdk)\examples\02.Quake3Map 这个例子演示了向 irr 引擎中载入一张 Quake3 地图文件以及创建一个用户控制的摄象机。它跟上一个例子 HelloWorld 一样简单，其实应该是更简单。它比上个例子少了 GUI 部分，增加了使用压缩文件的方法，剩2Quake3Map 官方代码($sdk)\examples\02.Quake3Map这个例子演示了向irr引擎中载入一张Quake3地图文件以及创建一个用户控制的摄象机。它跟上一个例子HelloWorld一样简单，其实...

Binlog中table_map_id的探究_MySQL

bitsCN.com 背景：最近，线上Row Based Replication（下称RBR）环境中遇到了一个Bug。这个bug简单的描述就是：RBR对于DML需要通过table-map的event来标注每一个有更新的表。而当一个DML同时操作多个表，且其中2个表的mapid相同时（通常为0），会导致slave执行这个event时crash，并重启mysqld实例可见这个bug的毁灭性极大。那么table-map-id 究竟从何而来？有什么办法知道每个表table-map-id，从而进行一些必要的监控呢？下文将用几...

mysql数据库 map传参【代码】

mysql数据库 map传参Map<String, Object> map2 = new HashMap<>();map2.put("schoolId", appLogin.getSchoolId());map2.put("userType", "2");SysAppLogin login = loginService.selectByDeptId(map2);//mapper层 SysAppLogin selectByDeptId(Map<String, Object> map);//mapper实现层@Overridepublic SysAppLogin selectByDeptId(Map<String, Object> map) {return SysAppLoginMapper.selectByDeptId(map);}//xml层<select id="se...

MYSQL - 技术教程分类

MySQL 教程 MySQL 安装 MySQL 管理 MySQL PHP 语法 MySQL 连接 MySQL 创建数据库 MySQL 删除数据库 MySQL 选择数据库 MySQL 数据类型 MySQL 创建数据表 MySQL 删除数据表 MySQL 插入数据 MySQL 查询数据 MySQL WHERE 子句 MySQL UPDATE 更新 MySQL DELETE 语句 MySQL LIKE 子句 MySQL UNION MySQL 排序 MySQL 分组 MySQL 连接的使用 MySQL NULL 值处理 MySQL 事务 MySQL ALTER命令 MySQL 索引 MySQL 临时表 MySQL 复制表 MySQL 元数据 MySQL 序列使用 MySQL 处理重复数据 MySQL 及 SQL 注入 MySQL 导出数据 MySQL 导入数据 MySQL 函数 MySQL 运算符 mysql 全部

MYSQL - 最热教程

sql分组取最大记录方法 mysql如何设置默认值 mysql创建数据表时指定默认值教程 MySQL 5.7 的初始化操作（root初始密码...Oracle中合并数据集(多行变一行)mysql 相同内容的字段合并为一条的方法解决mysql设置时区时的错误Unknown or ...解决ubuntu下mysql的'Access denied fo...ubuntu系统中MysqlERROR1045(28000)报错...mysql数据库设置不区分大小写

首页 / MYSQL / MapReduce的基本内容介绍（附代码）

MapReduce的基本内容介绍（附代码）

内容导读

内容图文

内容总结

内容备注

内容手机端

【MapReduce的基本内容介绍（附代码）】教程文章相关的互联网学习教程文章

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程