首页 / JAVA / Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4820字，纯文字阅读大概需要7分钟。

内容图文

一：准备数据源

在项目下新建一个student.txt文件，里面的内容为：

            
                1,zhangsan,202,lisi,213,wanger,194,fangliu,18

二：实现

Java版：

1.首先新建一个student的Bean对象，实现序列化和toString()方法，具体代码如下：

            
                import java.io.Serializable;  
  
@SuppressWarnings(
                "
                serial
                "
                )  

                public
                class
                 Student implements Serializable {  
  
    String sid;  
    String sname;  
    
                int
                 sage;  
    
                public
                 String getSid() {  
        
                return
                 sid;  
    }  
    
                public
                void
                 setSid(String sid) {  
        
                this.sid = sid;  
    }  
    public String getSname() {  
        return sname;  
    }  
    publicvoid setSname(String sname) {  
        this.sname = sname;  
    }  
    publicint getSage() {  
        return sage;  
    }  
    publicvoid setSage(int sage) {  
        this.sage = sage;  
    }  
    @Override  
    public String toString() {  
        return"Student [sid=" + sid + ", sname=" + sname + ", sage=" + sage + "]";  
    }    
}

2.转换，具体代码如下

            
                import java.util.ArrayList;  
  
import org.apache.spark.SparkConf;  
import org.apache.spark.api.java.JavaRDD;  
import org.apache.spark.sql.Dataset;  
import org.apache.spark.sql.Row;  
import org.apache.spark.sql.RowFactory;  
import org.apache.spark.sql.SaveMode;  
import org.apache.spark.sql.SparkSession;  
import org.apache.spark.sql.types.DataTypes;  
import org.apache.spark.sql.types.StructField;  
import org.apache.spark.sql.types.StructType;  
  

                public
                class
                 TxtToParquetDemo {  
  
    
                public
                static
                void
                 main(String[] args) {  
          
        SparkConf conf = new SparkConf().setAppName("TxtToParquet").setMaster("local");  
        SparkSession spark = SparkSession.builder().config(conf).getOrCreate();  
  
        reflectTransform(spark);//Java反射  
        dynamicTransform(spark);//动态转换      }  
      
    /** 
     * 通过Java反射转换 
     * @param spark 
     */privatestaticvoid reflectTransform(SparkSession spark)  
    {  
        JavaRDD<String> source = spark.read().textFile("stuInfo.txt").javaRDD();  
          
        JavaRDD<Student> rowRDD = source.map(line -> {  
            String parts[] = line.split(",");  
  
            Student stu = new Student();  
            stu.setSid(parts[0]);  
            stu.setSname(parts[1]);  
            stu.setSage(Integer.valueOf(parts[2]));  
            return stu;  
        });  
          
        Dataset<Row> df = spark.createDataFrame(rowRDD, Student.class);  
        df.select("sid", "sname", "sage").  
        coalesce(1).write().mode(SaveMode.Append).parquet("parquet.res");  
    }  
    /** 
     * 动态转换 
     * @param spark 
     */privatestaticvoid dynamicTransform(SparkSession spark)  
    {  
        JavaRDD<String> source = spark.read().textFile("stuInfo.txt").javaRDD();  
          
        JavaRDD<Row> rowRDD = source.map( line -> {  
            String[] parts = line.split(",");  
            String sid = parts[0];  
            String sname = parts[1];  
            int sage = Integer.parseInt(parts[2]);  
              
            return RowFactory.create(  
                    sid,  
                    sname,  
                    sage  
                    );  
        });  
          
        ArrayList<StructField> fields = new ArrayList<StructField>();  
        StructField field = null;  
        field = DataTypes.createStructField("sid", DataTypes.StringType, true);  
        fields.add(field);  
        field = DataTypes.createStructField("sname", DataTypes.StringType, true);  
        fields.add(field);  
        field = DataTypes.createStructField("sage", DataTypes.IntegerType, true);  
        fields.add(field);  
          
        StructType schema = DataTypes.createStructType(fields);  
          
        Dataset<Row> df = spark.createDataFrame(rowRDD, schema);  
        df.coalesce(1).write().mode(SaveMode.Append).parquet("parquet.res1");                    
    }      
}

scala版本：

            
                import org.apache.spark.sql.SparkSession  
import org.apache.spark.sql.types.StringType  
import org.apache.spark.sql.types.StructField  
import org.apache.spark.sql.types.StructType  
import org.apache.spark.sql.Row  
import org.apache.spark.sql.types.IntegerType  
  

                object
                 RDD2Dataset {  
    
  
                case
                class
                 Student(id:Int,name:String,age:Int)  
  def main(args:Array[String])  
  {  
      
    val spark=SparkSession.builder().master("local").appName("RDD2Dataset").getOrCreate()  
    import spark.implicits._  
    reflectCreate(spark)  
    dynamicCreate(spark)  
  }  
    
 /**  
     * 通过Java反射转换  
     * @param spark  
     */private def reflectCreate(spark:SparkSession):Unit={  
    import spark.implicits._  
    val stuRDD=spark.sparkContext.textFile("student2.txt")  
    //toDF()为隐式转换  
    val stuDf=stuRDD.map(_.split(",")).map(parts?Student(parts(0).trim.toInt,parts(1),parts(2).trim.toInt)).toDF()  
    //stuDf.select("id","name","age").write.text("result") //对写入文件指定列名      stuDf.printSchema()  
    stuDf.createOrReplaceTempView("student")  
    val nameDf=spark.sql("select name from student where age<20")  
    //nameDf.write.text("result") //将查询结果写入一个文件      nameDf.show()  
  }  
    
  /**  
     * 动态转换  
     * @param spark  
     */private def dynamicCreate(spark:SparkSession):Unit={  
    val stuRDD=spark.sparkContext.textFile("student.txt")  
    import spark.implicits._  
    val schemaString="id,name,age"  
    val fields=schemaString.split(",").map(fieldName => StructField(fieldName, StringType, nullable = true))  
    val schema=StructType(fields)  
    val rowRDD=stuRDD.map(_.split(",")).map(parts?Row(parts(0),parts(1),parts(2)))  
    val stuDf=spark.createDataFrame(rowRDD, schema)  
        stuDf.printSchema()  
    val tmpView=stuDf.createOrReplaceTempView("student")  
    val nameDf=spark.sql("select name from student where age<20")  
    //nameDf.write.text("result") //将查询结果写入一个文件      nameDf.show()  
  }  
}

注：1.上面代码全都已经测试通过，测试的环境为spark2.1.0，jdk1.8。

2.此代码不适用于spark2.0以前的版本。

原文：https://www.cnblogs.com/itboys/p/9172780.html

内容总结

以上是互联网集市为您收集整理的Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）全部内容，希望文章能够帮你解决Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1324282.html

来源：【匿名】

【下一篇】JAVA/JSP学习系列之五

更多 ►

【Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）】教程文章相关的互联网学习教程文章

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）【代码】

一：准备数据源在项目下新建一个student.txt文件，里面的内容为：1,zhangsan,202,lisi,213,wanger,194,fangliu,18 二：实现 Java版： 1.首先新建一个student的Bean对象，实现序列化和toString()方法，具体代码如下：import java.io.Serializable; @SuppressWarnings("serial") publicclass Student implements Serializable { String sid; String sname; int sage; public String getSid() { return sid; } p...

小记--------sparksql和DataFrame的小小案例java、scala版本【代码】

/** * 创建dataframe */ public class DataFrameCreate {public static void main (String[] args){SparkConf conf = new SparkConf().setAppName("DataFrameCreate").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);SQLContext sqlContext = new SQLContext(sc);sqlContext.read().json("hdfs://spark1:9000/test.json").show();} }//=======================分隔符=====================================...

在Java中通过Spark DataFrame进行迭代而无需收集【代码】

我正在使用Spark 1.6.1 我有一个DataFrame,我需要对其进行遍历并将每一行写入Kafka.截至目前,我正在执行以下操作：Producer<String><String> message; for(Row x: my_df.collect()){kafka_message = new Producer<String><String>(topic, String.valueOf(x))my_kafka_producer.send(kafka_message); }这里的问题是,收集将数据发送到驱动程序,然后推送到kafka.鉴于我大约有250位执行者,我的1个驱动程序无法有效处理工作量.因此,我想...

java-在Spark中将DataFrame转换为Json数组【代码】

我正在用Java编写Spark应用程序,该应用程序读取HiveTable并将输出以Json格式存储在HDFS中. 我使用HiveContext读取了蜂巢表,它返回了DataFrame.下面是代码片段.SparkConf conf = new SparkConf().setAppName("App");JavaSparkContext sc = new JavaSparkContext(conf);HiveContext hiveContext = new org.apache.spark.sql.hive.HiveContext(sc);DataFrame data1= hiveContext.sql("select * from tableName")现在我想将DataFrame转...

使用Apache Spark和Java将CSV解析为DataFrame / DataSet【代码】

我是新手,我想要使用group-by& reduce从CSV中找到以下内容(使用一行)：Department, Designation, costToCompany, StateSales, Trainee, 12000, UPSales, Lead, 32000, APSales, Lead, 32000, LASales, Lead, 32000, TNSales, Lead, 32000, APSales, Lead, 32000, TN Sales, Lead, 32000, LASales, Lead, 32000, LAMarketing, Associate, 18000, TNMarketing, Associate, 18000, TNHR, Manager, 58000, TN我想通过Department,Design...

如何使用Java将unix epoch的列转换为Apache spark DataFrame中的Date？【代码】

我有一个json数据文件,其中包含一个属性[creationDate],它是“long”数字类型的unix epoc. Apache Spark DataFrame架构如下所示：root |-- creationDate: long (nullable = true) |-- id: long (nullable = true) |-- postTypeId: long (nullable = true)|-- tags: array (nullable = true)| |-- element: string (containsNull = true)|-- title: string (nullable = true)|-- viewCount: long (nullable = true)我想做一些gro...

java – 如何在GroupBy操作后从spark DataFrame列中收集字符串列表？【代码】

描述here(零点323)的解决方案非常接近我想要的两个曲折： >我如何用Java做到这一点？>如果列具有字符串列表而不是单个字符串,并且我想在GroupBy(其他列)之后将所有这些列表收集到单个列表中,该怎么办？我正在使用Spark 1.6并尝试使用 org.apache.spark.sql.functions.collect_list(Column col),如该问题的解决方案中所述,但得到以下错误Exception in thread “main” org.apache.spark.sql.AnalysisException: undefined function...

RDD转换为DataFrame的时候报错：java.lang.NumberFormatException: For input string: ""

1.问题描述 RDD转换为DataFrame，运行命令：val spark=SparkSession.builder().appName("RDD2DataFrameSpark").master("local[2]").getOrCreate()//RDD==>DataFrameval rdd= spark.sparkContext.textFile("datas/info.txt")// For implicit conversions from RDDs to DataFramesimport spark.implicits._val infoDF=rdd.map( _.split(",")).map(line=>Info(line(0).toInt,line(1),line(2).toInt)).toDF()infoDF.show() 报错：18/10...

Java – Spark SQL DataFrame映射函数不起作用【代码】

在Spark SQL中,当我尝试在DataFrame上使用map函数时,我遇到了错误. DataFrame类型中的方法映射(Function1,ClassTag)不适用于参数(new Function(){}) 我也在关注spark 1.3文档. https://spark.apache.org/docs/latest/sql-programming-guide.html#inferring-the-schema-using-reflection有任何解决方案吗？这是我的测试代码.// SQL can be run over RDDs that have been registered as tables. DataFrame teenagers = sqlContext.s...

如何使用Java在Spark SQL中加入多个列以在DataFrame中进行过滤【代码】

> DataFrame a =包含列x,y,z,k> DataFrame b =包含列x,y,aa.join(b,<condition to use in java to use x,y >) ??? 我试过用a.join(b,a.col("x").equalTo(b.col("x")) && a.col("y").equalTo(b.col("y"),"inner")但Java正在抛出错误说&&不被允许.解决方法:Spark SQL在Column上提供了一组标记为java_expr_ops的方法,这些方法专为Java互操作性而设计.它包括and(参见or)方法,可在此处使用：a.col("x").equalTo(b.col("x")).and(a.col("...

首页 / JAVA / Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

内容导读

内容图文

内容总结

内容备注

内容手机端

【Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）】教程文章相关的互联网学习教程文章

SCALA - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程