首页 / JAVA / Spark 常用的 Transformation 算子示例 ===> Java 版

Spark 常用的 Transformation 算子示例 ===> Java 版

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark 常用的 Transformation 算子示例 ===> Java 版，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7727字，纯文字阅读大概需要12分钟。

内容图文

Spark 常用的 Transformation 算子示例 ===> Java 版

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.*;
import scala.Int;
import scala.Tuple2;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
public class TransformationCases {
    public static void main(String[] args) {
//准备测试数据
        List<Integer> numbers = Arrays.asList(1,2,3,4,5,6,7,8,9,10);
        List<String> text = Arrays.asList("cat,dog,rabbit","apple,pear,peach","eyes,nose,mouth");
        List<Tuple2<String,Integer>> scores = Arrays.asList(
                new Tuple2<String, Integer>("class1",88),
                new Tuple2<String, Integer>("class2",90),
                new Tuple2<String, Integer>("class2",85),
                new Tuple2<String, Integer>("class1",95),
                new Tuple2<String, Integer>("class2",89)
        );
        List<Tuple2<Integer,String>> students = Arrays.asList(
                new Tuple2<Integer, String>(1,"s1"),
                new Tuple2<Integer, String>(2,"s2"),
                new Tuple2<Integer, String>(3,"s3"),
                new Tuple2<Integer, String>(4,"s4")
        );
        List<Tuple2<Integer,Integer>> stuScores = Arrays.asList(
                new Tuple2<Integer, Integer>(1,100),
                new Tuple2<Integer, Integer>(2,98),
                new Tuple2<Integer, Integer>(3,98),
                new Tuple2<Integer, Integer>(3,99),
                new Tuple2<Integer, Integer>(2,99)
        );
//拿到 SparkContext 对象
        JavaSparkContext sc = getContext();
//测试 Transformation 方法：
//        mapDemo(sc,numbers);
//        filterDemo(sc,numbers);
//        flatMapDemo(sc,text);
//        groupByKeyDemo(sc,scores);
//        reduceByKeyDemo(sc,scores);
//        sortByKeyDemo(sc,scores);
//        joinDemo(sc,students,stuScores);
        cogroupDemo(sc,students,stuScores);

        closeContext(sc);

    }
  //创建SparkConf 和 SparkContext 对象。
    public static JavaSparkContext getContext(){
        SparkConf conf = new SparkConf()
                .setAppName("TransformationCases")
                .setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        return sc;
    }
 //关闭 SparkContext 对象。
    public static void closeContext(JavaSparkContext sc){
        if (sc != null){
            sc.close();
        }
    }
 //调用 map 算子实现功能：将集合中的每个元素乘以 2 .
    public static void mapDemo(JavaSparkContext sc, List<Integer> numbers){
        JavaRDD<Integer> rdd = sc.parallelize(numbers,1);
        JavaRDD<Integer> doubledNumbers = rdd.map(new Function<Integer,Integer>() {
            public Integer call(Integer v1) throws Exception {
                return v1 * 2;
            }
        });
        doubledNumbers.foreach(new VoidFunction<Integer>() {
            public void call(Integer number) throws Exception {
                System.out.println(number);
            }
        });
    }
 //调用 filter 算子实现功能：返回集合中所有的偶数。
    public static void filterDemo(JavaSparkContext sc,List<Integer> numbers){
        JavaRDD<Integer> rdd = sc.parallelize(numbers,1);
        JavaRDD<Integer> evenNumbers = rdd.filter(new Function<Integer, Boolean>() {
            public Boolean call(Integer v1) throws Exception {
                return v1 % 2 == 0;
            }
        });
        evenNumbers.foreach(new VoidFunction<Integer>() {
            public void call(Integer number) throws Exception {
                System.out.println(number);
            }
        });
    }
//调用 flatMap 算子实现功能：将每个字符串拆分成单个的单词。
    public static void flatMapDemo(JavaSparkContext sc,List<String> text){
        JavaRDD<String> rdd = sc.parallelize(text);
        JavaRDD<String> words = rdd.flatMap(new FlatMapFunction<String, String>() {
            public Iterator<String> call(String line) throws Exception {
                return Arrays.asList(line.split(",")).iterator();
            }
        });
        words.foreach(new VoidFunction<String>() {
            public void call(String word) throws Exception {
                System.out.println(word);
            }
        });
    }
//调用 groupByKey 算子实现功能：根据班级分组，将同一个班级的分数归为一组。
    public static void groupByKeyDemo(JavaSparkContext sc, List<Tuple2<String,Integer>> scores){
        JavaPairRDD<String, Integer> lists = sc.parallelizePairs(scores);
        JavaPairRDD<String,Iterable<Integer>> groupedScores = lists.groupByKey();
        groupedScores.foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {
            public void call(Tuple2<String, Iterable<Integer>> scores) throws Exception {
                System.out.println(scores._1);
                Iterator<Integer> iterator = scores._2.iterator();
                while (iterator.hasNext()){
                    System.out.println(iterator.next());
                }
                System.out.println("========================================");
            }
        });
    }
//调用 reduceByKey 算子实现功能：计算每个班级分数总和。
    public static void reduceByKeyDemo(JavaSparkContext sc,List<Tuple2<String,Integer>> scores){
        JavaPairRDD<String,Integer> rdd = sc.parallelizePairs(scores);
        JavaPairRDD<String,Integer> reducedScores = rdd.reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 + v2;
            }
        });
        reducedScores.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            public void call(Tuple2<String, Integer> scores) throws Exception {
                System.out.println(scores._1 + " : " + scores._2);
            }
        });
    }
//调用 sortedByKey 算子实现功能：按照分数做升序排序。
    public static void sortByKeyDemo(JavaSparkContext sc,List<Tuple2<String,Integer>> scores){
        JavaPairRDD<String,Integer> rdd = sc.parallelizePairs(scores);
　　//因为是要根据分数排序，而原始数据的key是class，所以将key和value临时调换一下。
        JavaPairRDD<Integer,String> swapedRdd = rdd.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
            public Tuple2<Integer, String> call(Tuple2<String, Integer> pair) throws Exception {
                return new Tuple2<Integer, String>(pair._2,pair._1);
            }
        });
　　//根据现在的key（分数）升序排序。
        JavaPairRDD<Integer,String> sortedRdd = swapedRdd.sortByKey();
//排序完成后，还是要按照原始数据的key和value来保存，所以再把key和value调换回来。
        JavaPairRDD<String,Integer> result = sortedRdd.mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {
            public Tuple2<String, Integer> call(Tuple2<Integer, String> pair) throws Exception {
                return new Tuple2<String, Integer>(pair._2,pair._1);
            }
        });
        result.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            public void call(Tuple2<String, Integer> pairs) throws Exception {
                System.out.println(pairs._1 + " : " + pairs._2);
            }
        });
    }
//调用 join 算子实现功能：将两个RDD的元素按照key做连接。
    public static void joinDemo(JavaSparkContext sc,List<Tuple2<Integer,String>> students,List<Tuple2<Integer,Integer>> stuScores){
        JavaPairRDD<Integer,String> stuRdd = sc.parallelizePairs(students);
        JavaPairRDD<Integer,Integer> scoreRdd = sc.parallelizePairs(stuScores);
        JavaPairRDD<Integer,Tuple2<String,Integer>> lists = stuRdd.join(scoreRdd);
        lists.foreach(new VoidFunction<Tuple2<Integer, Tuple2<String, Integer>>>() {
            public void call(Tuple2<Integer, Tuple2<String, Integer>> pairs) throws Exception {
                System.out.println(pairs._1 + " : " + pairs._2._1  + " : " +  pairs._2._2);
            }
        });
    }
//调用 cogroup 算子实现功能：将两个RDD的元素按照key做连接。 它跟join实现的功能是一样的，但是它们的返回值不同。

    public static void cogroupDemo(JavaSparkContext sc,List<Tuple2<Integer,String>> students,List<Tuple2<Integer,Integer>> stuScores){
        JavaPairRDD<Integer,String> stuRdd = sc.parallelizePairs(students);
        JavaPairRDD<Integer,Integer> scoreRdd = sc.parallelizePairs(stuScores);
        JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> cogroupedRdd = stuRdd.cogroup(scoreRdd);
        cogroupedRdd.foreach(new VoidFunction<Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>>>() {
            public void call(Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> pairs) throws Exception {
                System.out.println(pairs._1 + " : " + pairs._2._1 + " : " + pairs._2._2);
            }
        });
    }
}

版' ref='nofollow'>Spark 常用的 Transformation 算子示例 ===> Java 版

原文：https://www.cnblogs.com/rabbit624/p/10656567.html

内容总结

以上是互联网集市为您收集整理的Spark 常用的 Transformation 算子示例 ===> Java 版全部内容，希望文章能够帮你解决Spark 常用的 Transformation 算子示例 ===> Java 版所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1109201.html

来源：【匿名】

【上一篇】java笔记7之录入【下一篇】JAVA/JSP学习系列之五

更多 ►

【Spark 常用的 Transformation 算子示例 ===> Java 版】教程文章相关的互联网学习教程文章

Java xml出现错误 javax.xml.transform.TransformerException: java.lang.NullPointerException

转自：https://www.jb51.net/article/98644.htmJava xml出现错误 javax.xml.transform.TransformerException: java.lang.NullPointerException解决办法：利用Java操作XML，在操作XML过程中，执行到最后一步，在利用Transformer进行XML转换时出现NullPointerException错误，出问题的部分代码如下：?12345678910//转换 TransformerFactory tFactory =TransformerFactory.newInstance(); Transformer transformer = tFactory.newTrans...

Java探针技术-instrutment中retransformClasses和redefineClasses【代码】

retransformClasses：已经加载的类重新进行转换处理，即会触发重新加载类定义，需要注意的是，新加载的类不能修改旧有的类声明，譬如不能增加属性、不能修改方法声明 redefineClasses：与如上类似，但不是重新进行转换处理，而是直接把处理结果(bytecode)直接给JVM总结：　　class文件随着虚拟机启动的时候，会经过premain方法，premain方法中定义了transform，这个premain在虚拟机启动的时候会被执行一次，然后通过transform方法对...

java-使用DataSetIterator时TransformProcess转换数据【代码】

我有一个既包含数值属性又包含名义属性的CSV数据集.我为数据集定义了架构,该架构列出了名义属性的所有可能值.之后,我创建了TransformProcess,以使用CategoricalToOneHotTransform将标称值转换为数值.如何在RecordReaderDataSetIterator上使用此TransformProcess为我的神经网络做准备？Schema schema = new Schema.Builder().addColumnInteger("age").addColumnCategorical("workclass", "Private", "Self-emp-not-inc", "Self-emp-...

RxJava操作符（二）TransformingObservables_PHP教程【图】

RxJava操作符（二）Transforming Observables在上一篇文章中，我们了解了如何创建Observable，仅仅创建一个Observable可能无法满足一些复杂的场景，所以我们很可能需要将创建的Observable安装某种规则转化一下来发射数据。在这篇文章里我们来了解一下如何来转化Observable 一、Buffer 顾名思义，Buffer操作符所要做的事情就是将数据安装规定的大小做一下缓存，然后将缓存的数据作为一个集合发射出去。如下图所示，第一张示例图中...

访问javaweb项目出现javax.xml .transform.T ransfomerFactoryConfiguationErmor: Provider for class javax..xml【图】

报错图片如下：我这里的问题时因为jar包冲突了（weblogic.jar和下面的来个jar冲突了）我这里是把weblogic的jar删除了如果是eclipse的话删除jar会出现这样一个问题 An exception has been caught while processing the refactoring Delete 解决方法看这个博客：https://blog.csdn.net/qq_37591637/article/details/85257068 有个地方需要注意：如果你在eclispe上建或者导入项目勾选了 copy workspace什么的这里你...

Java-Instrument 与 ClassFileTransformer

Java Instrument 能做什么？最大的作用？使开发者可以构建一个独立于应用程序的代理程序 Agent，用来监控和协助运行在 JVM 上的程序，更重要的是能够替换和修改某些类的定义；最大的作用：可以实现一种虚拟机级别支持的 AOP 实现方式；基于 JVMTI 代理程序。 JVMTI：一套代理程序机制，为 JVM 相关工具提供的本地编程接口集合。 JVMTI 可以支持第三方工具程序以代理的方式连接和访问 JVM，并利用 JVMTI 提供的丰富的编程接口，...

Java.awt.geom.AffineTransform 的使用【图】

https://docs.oracle.com/javase/8/docs/api/java/awt/geom/AffineTransform.html http://www.cjsdn.net/Doc/JDK50/java/awt/geom/class-use/AffineTransform.html http://docs.cocos.com/creator/api/zh/classes/AffineTransform.html

如何使javax Transformer输出HTML(无自闭合标签)？

我正在使用javax.xml.transform.Transformer将XML文件转换为HTML文件. div可能不包含任何内容,这会导致Transformer输出< div /&gt ;,这会中断渲染.我已经搜索了found,“您可以将xslt的输出更改为html而不是xml,以避免自动关闭标签出现问题”,但这是针对另一种工具的,我纳闷：如何使用a javax变形金刚？解决方法:看起来您像平常一样创建了转换器,然后使用Transformer.setOutputProperty将METHOD属性设置为“ html”

TransformException：java.util.zip.ZipException：重复项：android / support / annotation / StyleRes.class【代码】

失败：构建失败,发生异常. >出了什么问题：任务’：app：transformClassesWithJarMergingForDebug’的执行失败.com.android.build.api.transform.TransformException: java.util.zip.ZipException: duplicate entry: android/support/annotation/StyleRes.class>试试：使用–stacktrace选项运行以获取堆栈跟踪.使用–info或–debug选项运行以获取更多日志输出. 建立失败总时间：21.555秒gradle.build: apply plugin: 'com.android...

如何在Spring集成中使用JAVA配置创建xslt-transformer？【代码】

我在Spring-Integration中有以下xslt-transformer.如何使用Java Config进行相同的配置？<si-xml:xslt-transformer input-channel="input" output-channel="output"xsl-resource="classpath:/test.xsl"result-transformer="resultToDoc"/>解决方法: @Transformer(inputChannel = "input", outputChannel = "output") @Bean public XsltPayloadTransformer transformer() {return new XsltPayloadTransformer(new ClassPathResource(...

Java AffineTransform移动原点【代码】

我想将原点从组件的左上角移到中间的底部吗？我一直在玩AffineTransform类无法正常工作？解决方法:您将需要尝试绘制的组件的高度和宽度.假设您处于paint(Graphics g)方法中,最简单的方法是：paint(Graphics g){Graphics2D g2 = (Graphics2D)g;g2.translate( component.getWidth()/2.0, component.getHeight()/2.0);//...}

java-如何在CXF中使用Transform删除入站XML元素？【代码】

我在使用MS Exchange Web服务(EWS)的客户端中使用CXF(v2.7.10). 我发现EWS(UniqueHash)返回的元素之一包含在XML v1.0中无效的字符.由于对此我无能为力,因此我尝试使用入站拦截器来删除UniqueHash元素(我不需要它们),如下所示：Map<String, String> inTransformMap = Collections.singletonMap("{http://schemas.microsoft.com/exchange/services/2006/types}UniqueHash", ""); TransformInInterceptor transformInInterceptor = ne...

java-如何从AffineTransform衍生的形状对象中“获取”特定点【代码】

作为一个自我项目,我正在尝试制作“小行星”游戏. 目前,我一直在努力寻找方法,以使从我的船发射的激光从船的顶端出现.到目前为止,我已经尝试过使用Shape对象的.getBounds2D().getX()方法进行实验,但是由于getBounds2D()在多边形周围绘制了一个矩形,因此激光最终从虚构的“盒子”的一角出现我的多边形飞船. Here’s a gif of what I have so far. 有没有一种方法可以从Shape对象中“获取”特定点；在这种情况下,该特定点是飞船的顶端...

com.android.build.api.transform.TransformException：java.util.zip.ZipException：重复项：com / google / and【代码】

将firebase sdk添加到gradle后,面临以下问题. 错误：任务’：app：transformClassesWithJarMergingForDebug’的执行失败.com.android.build.api.transform.TransformException: java.util.zip.ZipException: duplicate entry: com/google/android/gms/internal/zzbn.class请帮助！This is the APP gradle file apply plugin: 'com.android.application' apply plugin: 'io.fabric' apply plugin: 'me.tatarka.retrolambda' apply p...

Java Hibernate转换器AliasToBeanNestedResultTransformer【代码】

我有这样的查询.我传递了学生ID,我需要学生及其父级的某些字段以及父级>地址的某些字段[这是我面临的主要问题]我正在使用AliasToBeanNestedResultTransformer转换器,其设置为Sami Andoni 这是它的实现CODE 这是我的代码.public List<Student>searchForStudent(Integer studentId) { Projection p=Projections.projectionList().create().add(Projections.property("name"),"name")//the student name it works O.K.add(P...

首页 / JAVA / Spark 常用的 Transformation 算子示例 ===> Java 版

Spark 常用的 Transformation 算子示例 ===> Java 版

内容导读

内容图文

内容总结

内容备注

内容手机端

【Spark 常用的 Transformation 算子示例 ===> Java 版】教程文章相关的互联网学习教程文章

Java xml出现错误 javax.xml.transform.TransformerException: java.lang.NullPointerException

Java探针技术-instrutment中retransformClasses和redefineClasses【代码】

java-使用DataSetIterator时TransformProcess转换数据【代码】

RxJava操作符（二）TransformingObservables_PHP教程【图】

访问javaweb项目出现javax.xml .transform.T ransfomerFactoryConfiguationErmor: Provider for class javax..xml【图】

Java-Instrument 与 ClassFileTransformer

Java.awt.geom.AffineTransform 的使用【图】

如何使javax Transformer输出HTML(无自闭合标签)？

TransformException：java.util.zip.ZipException：重复项：android / support / annotation / StyleRes.class【代码】

如何在Spring集成中使用JAVA配置创建xslt-transformer？【代码】

Java AffineTransform移动原点【代码】

java-如何在CXF中使用Transform删除入站XML元素？【代码】

java-如何从AffineTransform衍生的形状对象中“获取”特定点【代码】

com.android.build.api.transform.TransformException：java.util.zip.ZipException：重复项：com / google / and【代码】

Java Hibernate转换器AliasToBeanNestedResultTransformer【代码】

TRANSFORM - 相关标签

FORMAT - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程