最近在开发新的MapReduce程序时,经常要打jar包上传到服务器,然后运行hadoop jar balaba。。。。。。看到网上都是在Eclipse下调试hadoop集群中MapReduce程序,而且描述的都是模模糊糊,有些根本就是错的,实在不忍心直视,其中有一篇关于idea下调试hadoop集群程序的博客,被疯狂转载,可是仔细看看,根本没用,因为他的平台是Linux。使用Intellij IDEA+maven的开发hadoop的同学,如果想在本地直接运行,不去上传jar包,可以静...
1.首先下载cygwin,例如安装在该目录下,D:\Program Files\cygwin\2.copy linux上的jar包到D:\Program Files\cygwin\home\lib 下,并下载一个修改过的jar包hadoop-core-1.0.4.jar替换掉原来的jar包。 http://download.csdn.net/download/m_star_jy_sy/73762833.修改程序 在linux上运行, * 输入文件、输出路径,可在Eclipse中Run Configurations中配Arguments,如: * hdfs://master:9000/input/salary.t...
虽然在运行Hadoop的时候可以打印出大量的运行日志,但是很多时候只通过打印这些日志是不能很好地跟踪Hadoop各个模块的运行状况。这时候编译与调试Hadoop源码就得派上场了。这也就是今天本文需要讨论的。 先说说怎么编译Hadoop源码,本文主要介绍在Linux环境下用Maven来编译Hadoop。在编译Hadoop之前,我们需要准备好编译环境:1、安装好1.6或以上的JDK;2、安装Maven,被做好相应的配置;3、安装ProtocolBuffer 2.5.0,MapReduce和...
搭建完成环境后,开始调试mapreduse程序。但是遇到不停的报错。本人很讨厌在自己的操作系统环境变量里设置来设置去,包括linux也是。通常喜欢把环境变量设置在启动程序的脚本中,让脚本自己运行的环境中有合适的环境变量即可。在Eclipse里,我预计需要设置ha搭建完成环境后,开始调试mapreduse程序。但是遇到不停的报错。本人很讨厌在自己的操作系统环境变量里设置来设置去,包括linux也是。通常喜欢把环境变量设置在启动程序的脚本...
前一篇博文我们搭建了好了运行环境,这篇小文我们开始搭建开发调试环境。这才是真正的精华,是无数血泪铸就的 ! 4、eclipse,又见eclipse 这个我想只要是做java的没有不熟悉,因此我就不再多说了,一切向http://www.eclipse.org索取 。 注意,这里的eclipse前一篇博文我们搭建了好了运行环境,这篇小文我们开始搭建开发调试环境。这才是真正的精华,是无数血泪铸就的!4、eclipse,又见eclipse这个我想只要是做java的没有不熟悉,...
MapReduce与HDFS简介
什么是Hadoop?
Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System,并发布了相关论文(可在Google Research的网站上获得: GFS 、 MapReduce)。 Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop。
MapReduce的Data flow如下图,原始数据经过mapper处理,再进行partition和sort,到达reducer,输...
开发环境搭建参考之前的博客文章1,程序代码如下:package wc;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import o...
1、在github上搜索下载winutils.exe相关的一套文件,下载对应hadoop的版本。
2、将所有文件复制到hadoop的bin目录下
3、将hadoop.dll复制到windows\system32目录下
4、添加环境变量HADOOP_HOME指向hadoop目录
5、将%HADOOP_HOME%\bin加入到path里面
完成上述步骤后,可以在windows环境调试hadoop,也可以本地调试远程节点,可以把本地文件上传到远程hadoop节点上。
基于Hadoop的Hive的安装与配置
hive的定义与作用
定义
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
作用
1.) 直接使用hadoop所面临的问题
人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大
2.)
操作接口采用类SQL语法,提供快速开发的能力。
避免了去写MapReduce,减少开发人员的学习成本。
hive的安装配置与调试
前面需要安装配置好hadoop...