首页 / HADOOP / hadoop入门程序

hadoop入门程序

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hadoop入门程序，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4754字，纯文字阅读大概需要7分钟。

内容图文

一、maven配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.wu</groupId>
    <artifactId>HighTem</artifactId>
    <version>1.0-SNAPSHOT</version>

    <!--此程序需要以Hadoop文件作为输入文件，以Hadoop文件作为输出文件，因此需要用到文件系统，于是需要引入hadoop-hdfs包；-->
    <!--我们需要向Map-Reduce集群提交任务，需要用到Map-Reduce的客户端，于是需要导入hadoop-mapreduce-client-jobclient包；-->
    <!--另外，在处理数据的时候会用到一些hadoop的数据类型例如IntWritable和Text等，-->
    <!--因此需要导入hadoop-common包。于是运行此程序所需要的相关依赖有以下几个：-->
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.4.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
            <version>2.4.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.4.0</version>
        </dependency>
    </dependencies>

</project>

二、程序

package com.wu;


/**
 * 数据格式 年份日期+温度
 * 2014010114
 * 2014010216
 * 2014010317
 * 2014010410
 * 2014010506
 * 2012010609
 * 2012010732
 * 2012010812
 * 2012010919
 * 2012011023
 * 2001010116
 * 2001010212
 * 2001010310
 * 2001010411
 * 2001010529
 * 2013010619
 * 2013010722
 * 2013010812
 * 2013010929
 * 2013011023
 */


/**
 * 1、首先创建input.txt文件，将上面的数据复制进去
 * 2、将input.txt文件上传到hdfs文件系统中
 *      hadoop fs -mkdir /test #新建一个test的目录
 *      hadoop fs -put /home/hadoop/runfile/input.txt /test/ #把对应的文件传入到hdfs里面的test目录下
 *      hadoop fs -ls /test #查询对应目录的信息
 *
 * 3、将下面的代码进行打包,并在hadoop环境下运行
 */


import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

/**
 * @Auther: wuyilong
 * @Date: 2019/5/24 15:55
 * @Description: 一个简单的hadoop例子
 */
public class Temperature {

    /**
     * 四个泛型类型分别代表：
     * KeyIn        Mapper的输入数据的Key，这里是每行文字的起始位置（0,11,...）
     * ValueIn      Mapper的输入数据的Value，这里是每行文字
     * KeyOut       Mapper的输出数据的Key，这里是每行文字中的“年份”
     * ValueOut     Mapper的输出数据的Value，这里是每行文字中的“气温”
     */
    static class TempMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String year = line.substring(0, 4);
            int temperature = Integer.parseInt(line.substring(8));
            context.write(new Text(year), new IntWritable(temperature));
        }
    }


    /**
     * 四个泛型类型分别代表：
     * KeyIn        Reducer的输入数据的Key，这里是每行文字中的“年份”
     * ValueIn      Reducer的输入数据的Value，这里是每行文字中的“气温”
     * KeyOut       Reducer的输出数据的Key，这里是不重复的“年份”
     * ValueOut     Reducer的输出数据的Value，这里是这一年中的“最高气温”
     */
    static class TempReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int maxValue = Integer.MIN_VALUE;
            StringBuilder sb = new StringBuilder();
            for(IntWritable value : values) {

                maxValue = Math.max(maxValue, value.get());

                sb.append(value).append(", ");
            }

            context.write(key, new IntWritable(maxValue));
        }
    }


    /**
     *
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        String dst = "hdfs://localhost:9000/intput.txt";// 1输入路径
        String dstOut = "hdfs://localhost:9000/output";// 2输出路径，必须是不存在的，空文件加也不行

        Configuration hadoopConfig = new Configuration();
        hadoopConfig.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
        hadoopConfig.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());

        Job job = new Job(hadoopConfig);

        // job执行作业的输入和输出文件的路径

        FileInputFormat.addInputPath(job, new Path(dst));
        FileOutputFormat.setOutputPath(job, new Path(dstOut));



        // 指定Mapper和Reducer两个阶段的处理类
        job.setMapperClass(TempMapper.class);
        job.setReducerClass(TempReducer.class);

        // 设置最后输出的Key和Value的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 执行job，直到完成
        job.waitForCompletion(true);
        System.out.println("finished");

    }

}

内容总结

以上是互联网集市为您收集整理的hadoop入门程序全部内容，希望文章能够帮你解决hadoop入门程序所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/821130.html

来源：【匿名】

【上一篇】Hadoop MapReduce例子(单词计数)-Java 【下一篇】php能用hadoop吗

更多 ►

【hadoop入门程序】教程文章相关的互联网学习教程文章

Hadoop入门程序WordCount的执行过程【代码】【图】

首先编写WordCount.java源文件，分别通过map和reduce方法统计文本中每个单词出现的次数，然后按照字母的顺序排列输出，　　Map过程首先是多个map并行提取多个句子里面的单词然后分别列出来每个单词，出现次数为1，全部列举出来　　Reduce过程首先将相同key的数据进行查找分组然后合并，比如对于key为Hello的数据分组为：<Hello, 1>、<Hello,1>、<Hello,1>，合并之后就是<Hello,1+1+1>，分组也可以理解为reduce的操作，合并减少数据...

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

不多说，直接上代码。代码package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4;import java.io.IOException;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FileUtil;import org.apache.hadoop.fs.Path;import o...

入门Hadoop---HDFS-API【图】

第一步：创建一个新的项目并导入需要的jar包公共核心包公共依赖包 hdfs核心包 hdfs依赖包第二步：将Linux中hadoop的配置文件拷贝到项目的src目录下第三步：配置windows本地的hadoop环境变量（HADOOP_HOME：hadoop的安装目录 Path：在后面添加hadoop下的bin目录）第四步：使用windows下编译好的hadoop替换hadoop的bin目录和lib目录第五步：使用FileSystem对象对hdfs进行操作（注意：FileSystem默认是本地文件系统因此要通过Con...

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

1.1 Hadoop简介从Hadoop官网获得Hadoop的介绍：http://hadoop.apache.org/(1)What Is Apache Hadoop?TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing.TheApache Hadoop software library is a framework that allows for the distributedprocessing of large data sets across clusters of computers using simpleprogramming models. It is designed to scale up from si...

Hadoop单机模式安装入门（Ubuntu系统）【图】

闲来无事，突然看到关于Hadoop集群。以前也了解过，网上找过一些关于百度，谷歌等底层hadoop集群的文档，可是面对很多陌生的技术，看不太通透。所有想自己动手虚拟机试试。经常听到这么高大上的名词，Hadoop已经成为大数据的代名词。短短几年间，Hadoop从一种边缘技术成为事实上的标准。而另一方面，MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候，谷歌好像早已进入到了下一个时代。Hadoop支持三种启动集群模式，分别是单...

小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』【代码】

Apache Spark 简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环...

Hadoop 架构开发培训视频教程大数据高性能集群 HBase Hive NoSQL 入门安装【图】

培训Hadoop架构开发！从基础到高级，手把手培训！[技术QQ：2937765541]获取视频资料和培训解答技术支持地址??获取视频资料和培训解答技术支持地址原文：http://huadu951.iteye.com/blog/2288098

Hadoop从入门到上手企业开发视频教程（三）

百度网盘地址：???http://pan.baidu.com/s/1mgBUN0W分享是一种乐趣，更多资源将持续发出原文：http://xinyeyouxiang.iteye.com/blog/2194279

Hadoop 入门【图】

一、Hadoop 二、HDFS大文件；一次写，多次读，不能修改；普通硬件就可以存储。低延迟数据；小文件处理没优势；不适合多次写，随意改的数据同时可以分布式的读取，读取速度可以大大加快。副本备份；自动备份；分块信息保存在：namenode。分块存储；冗余存储；分布读取；namenode保存在内存中。并且有副本。运行时，standy时时从active中获取NameNode信息，一旦active出现问题，换成standy模式。三、原文：https://www.cnblogs.com/...

Hadoop入门--HDFS（单节点）配置和部署(一)

一配置SSH 下载ssh服务端和客户端 sudo apt-get install openssh-server openssh-client 验证是否安装成功 ssh username@192.168.30.128按照提示输入username的密码，回车后显示以下，则成功。(此处不建议修改端口号，hadoop默认的是22,修改后启动hadoop会一配置SSH 下载ssh服务端和客户端 sudo apt-get install openssh-server openssh-client 验证是否安装成功 ssh username@192.168.30.128按照提示输入username的密码，回车后...

Hadoop入门规划指南

Hadoop入门规划指南a href=http://www.2cto.com/uploadfile/2013/1204/20131204030519532.rarhttp://www.2cto.com/uploadfile/2013/1204/20131204030519532.rar/abr /Hadoop入门规划指南http://www.2cto.com/uploadfile/2013/1204/20131204030519532.rar

Hadoop2.4.1入门实例：MaxTemperature

注意：以下内容在2.x版本与1.x版本同样适用，已在2.4.1与1.2.0进行测试。一、前期准备 1、创建伪分布Hadoop环境，请参考官方文档。或者http://blog.csdn.net/jediael_lu/article/details/38637277 2、准备数据文件如下sample.txt： 12345679867623119010123注意：以下内容在2.x版本与1.x版本同样适用，已在2.4.1与1.2.0进行测试。一、前期准备 1、创建伪分布Hadoop环境，请参考官方文档。或者http://blog.csdn.net/jediael_lu/ar...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / hadoop入门程序

hadoop入门程序

内容导读

内容图文

内容总结

内容备注

内容手机端

【hadoop入门程序】教程文章相关的互联网学习教程文章

Hadoop入门程序WordCount的执行过程【代码】【图】

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

入门Hadoop---HDFS-API【图】

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

Hadoop单机模式安装入门（Ubuntu系统）【图】

小白入门AI教程：教你快速搭建大数据平台『Hadoop+Spark』【代码】

Hadoop 架构开发培训视频教程大数据高性能集群 HBase Hive NoSQL 入门安装【图】

Hadoop从入门到上手企业开发视频教程（三）

Hadoop 入门【图】

Hadoop入门--HDFS（单节点）配置和部署(一)

Hadoop入门规划指南

Hadoop2.4.1入门实例：MaxTemperature

Alex的Hadoop菜鸟教程:第10课Hive入门教程

Hadoop大数据--Mapreduce编程规范及入门示例【代码】

好程序员大数据入门学习之Hadoop技术优缺点

HADOOP - 最新教程

HADOOP - 最热教程