首页 / HADOOP / 使用hadoop mapreduce分析mongodb数据：（1）

使用hadoop mapreduce分析mongodb数据：（1）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用hadoop mapreduce分析mongodb数据：（1），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5125字，纯文字阅读大概需要8分钟。

内容图文

github.com/mongodb/mongo-hadoop $ cd mongo-hadoop $ ./gradlew jar

编译时间比较长，成功编译之后mongo-hadoop-core-1.5.2.jar存在的路径是core/build/libs

下载mongo-java-driver-3.0.4.jar

http://central.maven.org/maven2/org/mongodb/mongo-java-driver/3.0.4/
选择 mongo-java-driver-3.0.4.jar

数据

数据样例

> db.in.find({})
{ "_id" : ObjectId("5758db95ab12e17a067fbb6f"), "x" : "hello world" }
{ "_id" : ObjectId("5758db95ab12e17a067fbb70"), "x" : "nice to meet you" }
{ "_id" : ObjectId("5758db95ab12e17a067fbb71"), "x" : "good to see you" }
{ "_id" : ObjectId("5758db95ab12e17a067fbb72"), "x" : "world war 2" }
{ "_id" : ObjectId("5758db95ab12e17a067fbb73"), "x" : "see you again" }
{ "_id" : ObjectId("5758db95ab12e17a067fbb74"), "x" : "bye bye" }

最后的结果

> db.out.find({})
{ "_id" : "2", "value" : 1 }
{ "_id" : "again", "value" : 1 }
{ "_id" : "bye", "value" : 2 }
{ "_id" : "good", "value" : 1 }
{ "_id" : "hello", "value" : 1 }
{ "_id" : "meet", "value" : 1 }
{ "_id" : "nice", "value" : 1 }
{ "_id" : "see", "value" : 2 }
{ "_id" : "to", "value" : 2 }
{ "_id" : "war", "value" : 1 }
{ "_id" : "world", "value" : 2 }
{ "_id" : "you", "value" : 3 }

目标是统计每个文档中出现的词频，并且把单词作为key，词频作为value存在mongodb中

Hadoop mapreduce代码

Mapreduce 代码

 1 import java.util.*; 
 2 import java.io.*;
 3 
 4 import org.bson.*;
 5 
 6 import com.mongodb.hadoop.MongoInputFormat;
 7 import com.mongodb.hadoop.MongoOutputFormat;
 8 
 9 import org.apache.hadoop.conf.Configuration;
10 import org.apache.hadoop.io.*;
11 import org.apache.hadoop.mapreduce.*;
12 
13 
14 public class WordCount {
15     public static class TokenizerMapper extends Mapper<Object, BSONObject, Text, IntWritable> {
16         private final static IntWritable one = new IntWritable(1);
17         private Text word = new Text();
18         public void map(Object key, BSONObject value, Context context ) 
19                 throws IOException, InterruptedException {
20             System.out.println( "key: " + key );
21             System.out.println( "value: " + value );
22             StringTokenizer itr = new StringTokenizer(value.get( "x" ).toString());
23             while (itr.hasMoreTokens()) {
24                 word.set(itr.nextToken());
25                 context.write(word, one);
26             }
27         }
28     }
29     public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
30         private IntWritable result = new IntWritable();
31         public void reduce(Text key, Iterable<IntWritable> values, Context context )
32             throws IOException, InterruptedException {
33             int sum = 0;
34             for (IntWritable val : values) {
35                 sum += val.get();
36             }
37             result.set(sum);
38             context.write(key, result);
39         }
40     }
41     public static void main(String[] args) throws Exception {
42         Configuration conf = new Configuration();
43         conf.set( "mongo.input.uri" , "mongodb://localhost/testmr.in" );
44         conf.set( "mongo.output.uri" , "mongodb://localhost/testmr.out" );
45         @SuppressWarnings("deprecation")
46         Job job = new Job(conf, "word count");
47         job.setJarByClass(WordCount.class);
48         job.setMapperClass(TokenizerMapper.class);
49         job.setCombinerClass(IntSumReducer.class);
50         job.setReducerClass(IntSumReducer.class);
51         job.setOutputKeyClass(Text.class);
52         job.setOutputValueClass(IntWritable.class);
53         job.setInputFormatClass( MongoInputFormat.class );
54         job.setOutputFormatClass( MongoOutputFormat.class );
55         System.exit(job.waitForCompletion(true) ? 0 : 1);
56     }
57 }

注意：设置mongo.input.uri和mongo.output.uri

1 conf.set( "mongo.input.uri" , "mongodb://localhost/testmr.in" );
2 conf.set( "mongo.output.uri" , "mongodb://localhost/testmr.out" );

编译

$ hadoop com.sun.tools.javac.Main WordCount.java -Xlint:deprecation

编译jar包
```
$ jar cf wc.jar WordCount*.class
```

运行
- 启动hadoop，运行mapreduce代码必须启动hadoop
```
$ start-all.sh
```
- 运行程序
- ```
$ hadoop jar  wc.jar WordCount
```
查看结果

$ mongo
MongoDB shell version: 2.4.9
connecting to: test
> use testmr;
switched to db testmr
> db.out.find({})
{ "_id" : "2", "value" : 1 }
{ "_id" : "again", "value" : 1 }
{ "_id" : "bye", "value" : 2 }
{ "_id" : "good", "value" : 1 }
{ "_id" : "hello", "value" : 1 }
{ "_id" : "meet", "value" : 1 }
{ "_id" : "nice", "value" : 1 }
{ "_id" : "see", "value" : 2 }
{ "_id" : "to", "value" : 2 }
{ "_id" : "war", "value" : 1 }
{ "_id" : "world", "value" : 2 }
{ "_id" : "you", "value" : 3 }
>

以上是一个简单的例子，接下来我要用hadoop mapreduce处理mongodb中的更加复杂的数据。敬请期待，如果有疑问，请在留言区提出 ^_^

参考资料以及文档

The elephant in the room mongo db + hadoop
http://chenhua-1984.iteye.com/blog/2162576
http://api.mongodb.com/java/2.12/com/mongodb/MongoURI.html
http://stackoverflow.com/questions/27020075/mongo-hadoop-connector-issue

如果The elephant in the room mongo db +

使用hadoop mapreduce分析mongodb数据：（1）

标签：

本文系统来源：http://www.cnblogs.com/goingmyway/p/5572171.html

内容总结

以上是互联网集市为您收集整理的使用hadoop mapreduce分析mongodb数据：（1）全部内容，希望文章能够帮你解决使用hadoop mapreduce分析mongodb数据：（1）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/464733.html

来源：【匿名】

【上一篇】HADOOP与ORACLE关联【下一篇】php能用hadoop吗

更多 ►

【使用hadoop mapreduce分析mongodb数据：（1）】教程文章相关的互联网学习教程文章

Hadoop日记Day17---计数器、map规约、分区学习【代码】【图】

一、Hadoop计数器1.1 什么是Hadoop计数器　　Haoop是处理大数据的，不适合处理小数据，有些大数据问题是小数据程序是处理不了的，他是一个高延迟的任务，有时处理一个大数据需要花费好几个小时这都是正常的。下面我们说一下Hadoop计数器，Hadoop计数器就相当于我们的日志，而日志可以让我们查看程序运行时的很多状态，而计数器也有这方面的作用。那么就研究一下Hadoop自身的计数器。计数器的程序如代码1.1所示，下面代码还是以内容...

Hadoop on Mac with IntelliJ IDEA - 9 解决Type mismatch in value from map问题【代码】

修改陆喜恒. Hadoop实战（第2版）5.3排序的代码时遇到IO异常。环境：Mac OS X 10.9.5, IntelliJ IDEA 13.1.5, Hadoop 1.2.1异常具体信息如下 1 14/10/06 03:08:51 INFO mapred.JobClient: Task Id : attempt_201410021756_0043_m_000000_0, Status : FAILED2 java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.IntWritable, recieved org.apache.hadoop.io.Text3 at org.apache.hadoop.ma...

如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map 的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来看几个名词：block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num : 输入文件的个数（1）默...

hadoop 多目录输入，map到reduce如何排序

使用MultipleInputs.addInputPath 对多个路径输入现在假设有三个目录，并使用了三个mapper去处理，经过map处理后，输出的结果会根据key 进行join，如果使用TextPair，会根据第一个字段jion，第二个字段排序然后在作为reduce的输入，进行计算原文：http://blog.csdn.net/smile0198/article/details/34534241

hadoop map-reduce中的文件并发操作

这样的操作在map端或者reduce端均可。下面以一个实际业务场景中的例子来简要说明。问题简要描述：假如reduce输入的key是Text(String),value是BytesWritable(byte[]),不同key的种类为100万个，value的大小平均为30k左右，每个key大概对应 100个value,要求对每一个key建立两个文件，一个用来不断添加value中的二进制数据，一个用来记录各个value在文件中的位置索引。(大量的小文件会影响HDFS的性能，所以最好对这些小文件进行拼接）当...

Hadoop:一个目录下的数据只由一个map处理

有这么个需求：一个目录下的数据只能由一个map来处理。如果多个map处理了同一个目录下的数据会导致数据错乱。刚开始google了下，以为网上都有现成的InputFormat，找到的答案类似我之前写的 mapreduce job让一个文件只由一个map来处理。或者是把目录写在文有这么个需求：一个目录下的数据只能由一个map来处理。如果多个map处理了同一个目录下的数据会导致数据错乱。刚开始google了下，以为网上都有现成的InputFormat，找到的答案...

Hadoop的Map-sidejoin和Reduce-sidejoin【图】

Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，key是用户id，value是用户姓名等等个人信息；dataset B是关于用户交易记录的，key是用 Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，k...

如何在Hadoop中控制map的个数

转载自：如何在hadoop中控制map的个数hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还转载自：如何在hadoop中控制map的个数 hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是...

eclipse中开发Hadoop2.x的Map/Reduce项目【图】

本文演示如何在Eclipse中开发一个Map/Reduce项目： 1、环境说明 Hadoop2.2.0 Eclipse?Juno SR2 Hadoop2.x-eclipse-plugin 插件的编译安装配置的过程参考：http://www.micmiu.com/bigdata/hadoop/hadoop2-x-eclipse-plugin-build-install/ 2、新建MR工程依次本文演示如何在Eclipse中开发一个Map/Reduce项目： 1、环境说明 Hadoop2.2.0Eclipse?Juno SR2Hadoop2.x-eclipse-plugin 插件的编译安装配置的过程参考：http://www.micmiu.c...

hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术【图】

纯干活：通过WourdCount程序示例：详细讲解MapReduce之BlockSplitShuffleMapReduce的区别及数据处理流程。 Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分。要想了解MR，Shuffle是必须要理解的。了解Shuffle的过程，更有利于我们在对MapReduce job纯干活：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分。要...

python的map和reduce和Hadoop的MapReduce有什么关系？

如题回复内容： hadoop map阶段所做的事类比于 python maphadoop reduce阶段所做的事类比于 python groupby但只是类比，hadoop map阶段和reduce阶段有更具体细节的不同步骤，两者牛头无法对上马嘴。MapReduce是一种Google第一次提出的，在并行集群里对大数据进行计算的的一种编程模型。它包括map与reduce。map与reduce来源于函数式编程的两个方法。Hadoop的MapReduce是对Google MapReduce的一个开源实现。它提供Map与Reduce两个接...

java – Hadoop map-reduce操作在写入输出时失败【代码】

我终于能够在Hadoop上启动map-reduce工作(在单个debian机器上运行).但是,map reduce作业始终失败,并显示以下错误：hadoopmachine@debian:~$./hadoop-1.0.1/bin/hadoop jar hadooptest/main.jar nl.mydomain.hadoop.debian.test.Main /user/hadoopmachine/input /user/hadoopmachine/output Warning: $HADOOP_HOME is deprecated.12/04/03 07:29:35 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Ap...

python-Win32平台的Hadoop / Map-reduce框架的替代方案

我发现Windows上的Hadoop有点令人沮丧：我想知道对于Win32用户,是否有Hadoop的替代品.我最看重的功能是： >易于初始设置和在较小的网络上进行部署(如果我们为该项目分配了20台以上的PC,我会感到惊讶)>易于管理-理想的框架应该具有基于Web / GUI的管理系统,这样我就不必自己写书了.>流行的东西稳定.奖金取决于我们能否及时交付该项目. 背景：我工作的公司希望建立一个新的网格系统来运行一些财务计算. 我一直在评估的第一个框架是H...

java – 我无法在独立模式下配置的hadoop上执行map-reduce作业【代码】

我试图在本地文件系统(独立模式)上测试我的计算机(MacOS 10.7)上的一个非常简单的hadoop map-reduce作业.该作业采用.csv文件(data-01)并计算某些字段的出现次数. 我下载了CDH4 hadoop,运行该作业,它似乎正常启动但是在处理完所有拆分后我得到以下错误：13/03/12 12:11:18 INFO mapred.MapTask: Processing split: file:/path/in/data-01:9999220736+33554432 13/03/12 12:11:18 INFO mapred.MapTask: Map output collector class =...

java – Hadoop：Reduce不产生所需的输出,它与map输出相同【代码】

这是我的地图public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{String[] fields = value.toString().split(",", -20);String country = fields[4];String numClaims = fields[8];if (numClaims.length() > 0 && !numClaims.startsWith("\"")) {context.write(new Text(country), new Tex...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / 使用hadoop mapreduce分析mongodb数据：（1）

使用hadoop mapreduce分析mongodb数据：（1）

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用hadoop mapreduce分析mongodb数据：（1）】教程文章相关的互联网学习教程文章

Hadoop日记Day17---计数器、map规约、分区学习【代码】【图】

Hadoop on Mac with IntelliJ IDEA - 9 解决Type mismatch in value from map问题【代码】

如何在hadoop中控制map的个数

hadoop 多目录输入，map到reduce如何排序

hadoop map-reduce中的文件并发操作

Hadoop:一个目录下的数据只由一个map处理

Hadoop的Map-sidejoin和Reduce-sidejoin【图】

如何在Hadoop中控制map的个数

eclipse中开发Hadoop2.x的Map/Reduce项目【图】

hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术【图】

python的map和reduce和Hadoop的MapReduce有什么关系？

java – Hadoop map-reduce操作在写入输出时失败【代码】

python-Win32平台的Hadoop / Map-reduce框架的替代方案

java – 我无法在独立模式下配置的hadoop上执行map-reduce作业【代码】

java – Hadoop：Reduce不产生所需的输出,它与map输出相同【代码】

MONGODB - 相关标签

HADOOP - 相关标签

数据 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程