大数据处理思路---java

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了大数据处理思路---java，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2817字，纯文字阅读大概需要5分钟。

内容图文

package org;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.File;
import java.io.IOException;
import java.net.URI;

public class WordCountApp {

    public static class mymapper extends Mapper
            <LongWritable,Text,Text,LongWritable>{
        //
        LongWritable one=new LongWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {

            //先读出一行
            String lines=value.toString();
            //拆分成单词，放入字符串数组
            String [] words=lines.split(" ");
            //把字符数组中的每一个单词  --> word，1
            for (String word:words
                 ) {
                context.write(new Text(word),one);
            }
        }
    }

    public static class myreduce extends Reducer
            <Text,LongWritable,Text,LongWritable>{
        @Override
        protected void reduce(Text key, Iterable<LongWritable> values, Context context)throws IOException, InterruptedException {
            //统计count
            long sum=0;
            // 把values 中的值，累加
            for (LongWritable value:values
                 ) {
                sum+=value.get();
            }
            //把结果输出
            context.write(key,new LongWritable(sum));
        }
    }
    /**
     * 主方法
     * Driver,封装了MapReduce作业的所有信息
     */
    public static void main(String[] args)throws  IOException, ClassNotFoundException, InterruptedException {

        //创建配置项
        Configuration configuration = new Configuration();

        // hadoop jar 包  wordcount（类名） 数据输入地址args[0]  输出地址args[1]
        //准备工作，清理已经存在的输出目录
        Path outputpath = new Path(args[1]);
        //链接到HDFS
        //FileSystem.get(new URI("192.168.1.1"),configuration,"hadoop");
        FileSystem fileSystem = FileSystem.get(configuration);
        //0、如果 输出目录存在，--删除
        if (fileSystem.exists(outputpath)) {
            fileSystem.delete(outputpath, true);
            System.out.println("输出目录存在，但是已经被删除了！");
        }
        //1、创建一个job
        Job job = Job.getInstance(configuration, "wordcount");
        //2.设置处理哪个类  告诉job要处理的是哪个类
        job.setJarByClass(WordCountApp.class);
        //3.作业要处理的数据的路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //4map处理的相关参数（固定套路） 1.找到自己处理的类  2。设置输出的key   3.设置输出value
        job.setMapperClass(mymapper.class);

        //固定
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        //5设置reduce先关参数
        job.setReducerClass(myreduce.class);
        //
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        //6.设置combiner  逻辑跟reduce一样
        job.setCombinerClass(myreduce.class);
        //7.作业处理完之后数据输出的路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //8.程序执行后的处理
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

内容总结

以上是互联网集市为您收集整理的大数据处理思路---java全部内容，希望文章能够帮你解决大数据处理思路---java所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/604426.html

来源：【匿名】

【上一篇】《Python金融大数据风控建模实战》第6章变量分箱方法【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【大数据处理思路---java】教程文章相关的互联网学习教程文章

最近，大数据越来越热，在自主可控的大旗下，各路国产数据库纷纷推出各自产品，本文，对国产数据库在大数据分析方面做些比较，所有都来源各官方网站内容。下面所选都是专门针对大数据的产品。650) this.width=650;" src="/upload/getfiles/default/2022/11/16/20221116065703052.jpg" title="dm-gbase-bloudwave-k-store.png" width="600" height="380" border="0" hspace="0" vspace="0" />据上图，各路产品相差不是非常显著，都...

mysql大数据量下优化

1 优化sql和索引2 增加缓存如：redis3 主从复制或主主复制，读写分离4 利用mysql自带分区表5 先做垂直拆分，将一个大系统分为多个小系统，也就是分布式6 水平切分，要选择一个合理的sharding key,为了有好的查询效率，表结构也要改动，做一定的冗余，应用也要改，sql中尽量带sharding key，将数据定位到限定的表上去查，而不是扫描全部的表参考：https://www.cnblogs.com/nengka/p/mysqloptimization.html原文：https://www.cnblo...

大数据实战（九十三）：电商数仓（七十七）集群管理（二）卸载CDH【图】

14.1 停止所有服务1）停止所有集群服务 2）停止CMservice 14.2 停用并移除Parcels对我们安装的parcels，依次执行停用、仅限停用状态、从主机删除 14.3 删除集群点击要删除的Cluster右侧的下拉箭头，点击删除 14.4 卸载Cloudera Manager Server1）停止Cloudera Manager Server[root@hadoop102 ~]# systemctl stop cloudera-scm-server2）卸载Cloudera Manager Server[root@hadoop102 ~]# yum remove cloudera-manager-server14.5 卸...

大数据在未来应用到哪些领域

互联网时代飚速发展，大数据作为近年热门兴起的行业之一已经越来越受人们重视，但是大学并没有相关专业随之同速发展，大部分企业招收的大数据人才80%来源于培训机构，东时教育联合高校建设大学生就业社会实践基地，让处于迷茫中的广大高校毕业生，找到了与社会亲密接触的机会，成为很多人弥补自身短板的选择。基于互联网的大数据时代，大数据在未来应用到哪些领域？东时拥有最权威的师资力量和最科学的培训体系，力争为学员提供从I...

大数据实践（九）--sqoop安装及基本操作【代码】

前置工具及环境Hadoop 2.7.3sqoop 1.4.6mysql 8mysql-connector-java-8.0.20.jarjava-json.jar一、简介Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移。二、安装1、解压、配...

DT大数据梦工厂第5讲

DT大数据梦工厂第5讲 http://yun.baidu.com/s/1jGjFpWy 本节王老师讲了数组。最主要的是使用了scala worksheet这个功能。这个功能可以打印出每一行代码的运行情况。 package com.dt.scala.helloimport scala.collection.mutable.ArrayBufferobject ArrayOps { def main(args: Array[String]): Unit = { val nums = new Array[Int](10) val a = new Array[String](10) val s = Array("Hello", "World") s(0) = "G...

大数据测试【图】

什么是大数据大数据是指无法在一定时间范围内用传统的计算机技术进行处理的海量数据集。对于大数据的测试则需要不同的工具、技术、框架来进行处理。大数据的体量大、多样化和高速处理所涉及的数据生成、存储、检索和分析使得大数据工程师需要掌握极其高的技术功底。需要你学习掌握更多的大数据技术、Hadoop、Mapreduce等等技术。大数据测试策略大数据应用程序的测试更多的是去验证其数据处理而不是验证其单一的功能特色。当然在大数...

大数据基础

1、Bloom Filter 过滤器数据分片与路由分区算法：一致性哈希算法2、备份机制与一致性3、CAP理论4、幂等性：分布式系统状态管理基石5、一致性模型：强、弱、最终一致。6、备份机制：法7,Leader-Follower模式7、共识协议：一致性协议。Paxos或者Raft8、算法与数据结构9、LSM：学习和B+树的区别和优势10、压缩算法：主流压缩算法Snapppy,LZ4。11、Bloom Filter过滤器统计学1、集中趋势 2、变异性3、归一化4、正态分布5、抽样分布6、估...

未来10年是大数据价值变现的阶段【图】

“未来几年，所有的金融企业，包括现在的银行、券商、保险和所有在线上风起云涌做金融生意的运营商，争夺的就是一件事情——那就是国民财富账户。国民财富账户如今是通过什么样的渠道去会聚、去使用、去体验的呢？那就是指尖上的银行。TalkingData不仅拥有移动数据，同时我们跟线上、线下的大型金融企业、金融机构和金融运营商进行了很多深入的合作。我们举办这样一场发布会，就是想从TalkingData的角度，看一看今天在指尖上所有做...

胖子哥的大数据之路（二）- 大数据结构化数据存储应用模式

一、楔子胖子哥是我网名，叫了很多年的网名，网名的来历与自己的沧桑和身材有关，不知是IT改变了我，显得苍老，还是我本就苍老，顺应了IT行业的需要。25岁那面，曾被跟我一样高的漂亮美眉叫叔叔，从此再也不敢打小姑娘的注意，走上了重口味热爱阿姨级别女性的不归路；曾被三十五、六岁的同事阿姨说苍老：看你也就三十五六吧，那年我25；周一的时候，还有一个60后的同事问及我的年龄，他很含蓄的，明显带着保留的口吻问我：你是75年...

大数据量表的优化查询

一、对于运算逻辑，尽可能将要统计的各项目整合在一个查询语句中计算，而不是用分组条件或分项目调用多个查询语句，而后在代码里计算结果。二、查询语句的优化，诸如不用"select *"、多表关联查询时添加别名于查询字段上、避免使用in、not in关键字、非去除重复时用union all替换union、先过滤后分组、排序等等。三、在无法更改数据结构、不影响其它业务操作情况下，为查询、统计项建立索引，这里有一段关于创建索引的话：创建索引...

大数据统计脚本，分城市订单统计

date_parameter <- "2016-08-01"start_date<-as.Date(date_parameter)dayCount_parameter = 1array = strsplit(as.character(start_date),"-")year = as.character(array[1])month=as.character(array[2])hiveContext <- sparkRHive.init(sc)sql(hiveContext, "use honeycomb_bh_db")if(dayCount_parameter>0){ date_parameter <-as.character(start_date) #通过hiveSql 获得想要的并集集合并且缓存下来 sql date_add ##程序执行阶...

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知【图】

摘要：世上有三类书籍：1、介绍知识，2、阐述理论，3、工具书；世间也存在两类知识：1、技术，2、思想。以下是我在部署ElasticSearch集群时的经验总结，它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。关键词：ElasticSearch, 搜索引擎, 集群, 大数据, Solr, 大数据三类书籍和两类知识：有一些书是对某一新知识领域的介绍，将此知识领域从头到尾、从内而外剖开了分析，吸收...

利用字符串和十进制逢10进位的特性实现大数据的算术运算。（加法案例）【代码】【图】

java中普通的数据类型int,long等不支持大数据间的算术运算，会出现丢失精度的问题，甚至无法用现有数据类型表示。例如：对这两个数做加法运算：1243543534646546546465465465464654+32423985348957348957348957348957348574=？在java中Long类型已经无法表示了，Long类型的最大值为Long.MAX_VALUE=9223372036854775807。但jdk类库中提供了BigInteger类型，可以解决。这里我用字符串和十进制运算进位的特性实现下大数的加法运算，其它...

云帆大数据学院_hadoop 2.2.0源码编译【图】

2.1下载地址1、ApacheHadoop（100%永久开源）下载地址：- http://hadoop.apache.org/releases.html- SVN：http://svn.apache.org/repos/asf/hadoop/common/branches/2、CDH（ClouderaDistributed Hadoop，100%永久开源）下载地址： - http://archive.cloudera.com/cdh4/cdh/4/（是tar.gz文件！） - http://archive.cloudera.com/cdh5/cdh/ （是tar.gz文件！）2.2官方版本说明(1) 官网：http://hadoop.apache.org(2) 下载...

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / 大数据处理思路---java

大数据处理思路---java

内容导读

内容图文

内容总结

内容备注

内容手机端

【大数据处理思路---java】教程文章相关的互联网学习教程文章

国产数据库比较之大数据分析【图】

mysql大数据量下优化

大数据实战（九十三）：电商数仓（七十七）集群管理（二）卸载CDH【图】

大数据在未来应用到哪些领域

大数据实践（九）--sqoop安装及基本操作【代码】

DT大数据梦工厂第5讲

大数据测试【图】

大数据基础

未来10年是大数据价值变现的阶段【图】

胖子哥的大数据之路（二）- 大数据结构化数据存储应用模式

大数据量表的优化查询

大数据统计脚本，分城市订单统计

我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知【图】

利用字符串和十进制逢10进位的特性实现大数据的算术运算。（加法案例）【代码】【图】

云帆大数据学院_hadoop 2.2.0源码编译【图】

JAVA - 相关标签

大数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程